一种基于隔离森林的海量数据异常值检测算法

    公开(公告)号:CN110956248A

    公开(公告)日:2020-04-03

    申请号:CN201811170297.0

    申请日:2018-09-27

    Abstract: 本发明公开了一种新颖的、面向多维数据的改进隔离森林异常值检测算法。利用该算法对于异常值检识别问题,我们只需要通过对原始数据集进行随机采样生成若干个子数据集,然后在每个子数据集上建立隔离树,从而不需要大量的计算和比较。以往的异常值检测需要大量计算每个数据对象之间的距离,此过程非常消耗时间,本发明在检测异常值的时候,并不需要大量的计算和比较,只需要进行隔离树的构建,然后根据建立的适应度函数利用遗传算法将检测准确度高、差异性大的隔离树选择出来,进而生成隔离森林,实现异常值的识别。本发明实现了异常值的精确检测,提高了检测的稳定性,减少了计算消耗和内存占用。

Patent Agency Ranking