海量数据离群点检测中相关子空间搜索方法

    公开(公告)号:CN118333147B

    公开(公告)日:2024-08-13

    申请号:CN202410774444.4

    申请日:2024-06-17

    Abstract: 本发明属于数据处理技术领域,具体涉及一种海量数据离群点检测中相关子空间搜索方法。该方法主要包括:步骤1,对原始数据进行预处理,构建有序列表集合和哈希分片集合;依次利用预处理得到的所有哈希分片进行自适应相关属性判断,保留无重复的相关属性结果集;步骤2,根据步骤1的结果生成所有候选子空间,并利用预计算的有序列表集合和基于最频繁替换策略的FLA结构进行相关子空间判断;步骤3,对步骤2中结果进行冗余删除并返回所有相关子空间。本发明利用局部敏感哈希索引预先将数据集划分成内存可以容纳的哈希分片,避免了由于内存不足对处理海量数据集的限制;独立验证所有哈希分片进行无关属性剪切,大大减少了候选子空间的数量。

    海量数据离群点检测中相关子空间搜索方法

    公开(公告)号:CN118333147A

    公开(公告)日:2024-07-12

    申请号:CN202410774444.4

    申请日:2024-06-17

    Abstract: 本发明属于数据处理技术领域,具体涉及一种海量数据离群点检测中相关子空间搜索方法。该方法主要包括:步骤1,对原始数据进行预处理,构建有序列表集合和哈希分片集合;依次利用预处理得到的所有哈希分片进行自适应相关属性判断,保留无重复的相关属性结果集;步骤2,根据步骤1的结果生成所有候选子空间,并利用预计算的有序列表集合和基于最频繁替换策略的FLA结构进行相关子空间判断;步骤3,对步骤2中结果进行冗余删除并返回所有相关子空间。本发明利用局部敏感哈希索引预先将数据集划分成内存可以容纳的哈希分片,避免了由于内存不足对处理海量数据集的限制;独立验证所有哈希分片进行无关属性剪切,大大减少了候选子空间的数量。

Patent Agency Ranking