-
公开(公告)号:CN104008420A
公开(公告)日:2014-08-27
申请号:CN201410225026.6
申请日:2014-05-26
Applicant: 中国科学院信息工程研究所
IPC: G06N3/08
Abstract: 本发明涉及一种基于自动编码机的分布式离群点检测方法及系统,包括定义训练数据集和测试数据集;将训练集的训练数据随机分配给若干个计算单元;所有计算单元并行执行,每个计算单元求解编码与解码参数;汇总每个计算单元的编码与解码参数得到最终编码与解码参数,构建一个自复制模型;将自复制模型应用到测试数据集上,并行计算每条测试数据的重建误差;按照重建误差降序排列测试数据,重建误差大于预定阈值的测试数据为离群点;本发明所述方法处理需要的总时间与处理的样本个数之间是独立的,仅仅取决于参数求解需要达到的精度;本发明非常适合基于MapReduce框架来处理大规模数据集上的离群点检测,具有良好的伸缩性与扩展性。