-
公开(公告)号:CN117195011A
公开(公告)日:2023-12-08
申请号:CN202310977090.9
申请日:2023-08-03
Applicant: 广东工业大学
IPC: G06F18/23 , G06F18/24 , G06F18/25 , G06F18/214
Abstract: 本发明公开了一种基于多簇判别器的无监督概念漂移检测方法,如下:将不同时间段流入的数据组织成不同的数据块;将第一个流入的数据块作为基分布数据块,使用不平衡聚类方法对基分布数据块进行划分学习,根据基分布数据块的数据分布信息,将每个簇以区分,从而独立出大簇与小簇;训练多簇判别器,利用划分学习后的簇结构训练多个单分类器,利用多个训练好的单分类器组成多簇判别器;通过多簇判别器监控后续流入的测试数据块中各个簇的新分布样本占比情况,当新分布样本占比大于设定的漂移阈值时,报告漂移发生。本发明的方法不论是小簇还是大簇的漂移,都能很好的检测,并且还具有了定位漂移簇的位置的能力,这可以让本发明更好的理解漂移。
-
公开(公告)号:CN119598229A
公开(公告)日:2025-03-11
申请号:CN202411660127.6
申请日:2024-11-20
Applicant: 广东工业大学
IPC: G06F18/2321 , G06F18/15 , G06F18/22 , G16H50/70
Abstract: 本发明公开了一种疾控大数据分析方法及系统,本方法包括以下步骤:获取包括多个类别属性的数据集X,并进行预处理;对数据集中的每个类别属性进行独立的最优顺序搜索,得到最优顺序,确定适合疾控大数据分析的距离结构,根据得到的最优顺序,计算样本与簇之间的距离度量,构建聚类模型;通过最小化目标函数,更新样本归属矩阵和顺序,动态调整聚类结果。本申请与传统技术相比,通过动态学习数据的最佳取值顺序和相应的距离结构,系统能够自适应地调整聚类结果,从而显著提高聚类准确性,并且为数据的理解提供了直观的解释。
-