-
-
公开(公告)号:CN111666316A
公开(公告)日:2020-09-15
申请号:CN202010565100.4
申请日:2020-06-19
Applicant: 南京大学
IPC: G06F16/2458 , G06K9/62
Abstract: 本发明公开了一种隔离分布核构建方法、异常数据检测方法及装置,属于机器学习和数据挖掘技术领域。采用的新的隔离分布核,给定一个数据集,将输入空间划分为隔离分区:每个分区将一个点与训练集中的其余点隔离。在执行点异常检测时,隔离分布核被用于测量点与给定数据集之间的相似性,似度最低的点被视为点异常,为了检测群数据集中的群异常,在两个层级使用隔离分布核,在第一级,将输入空间中数据集中的每个群都映射到希尔伯特空间一个点,在第二级,使用IDK测量希尔伯特空间映射后的点和点集之间的相似性,希尔伯特空间点异常为对应输入空间中群异常,隔离分布核实现有限维度的特征映射,从而加快运行效率,并且利用数据分布提高相似性精度。
-
公开(公告)号:CN116776174A
公开(公告)日:2023-09-19
申请号:CN202310747492.X
申请日:2023-06-21
Applicant: 南京大学
IPC: G06F18/23 , G06F18/22 , G06F18/23213
Abstract: 本发明公开了一种分布核聚类方法、装置、设备及存储介质,属于数据处理技术领域。包括以下步骤:输入数据集D,集群个数k,样本大小s以及相似度阈值τ;根据相似度阈值找到最大的k个初始聚类核心集;根据初始聚类核心集对应的分布,分配剩余的数据,进行聚类;返回聚类结果,输出#imgabs0#本发明相较于现有技术,其优点在于:分布核聚类方法、装置、设备及存储介质在不使用特征分解的情况下实现谱聚类优化目标,并产生了更好的聚类结果,因为它没有谱聚类的基本限制;分布核聚类方法采用的是一种线性时间算法,运行速度比谱聚类快几个数量级。
-
公开(公告)号:CN116432056A
公开(公告)日:2023-07-14
申请号:CN202310573844.4
申请日:2023-05-16
Applicant: 南京大学
Inventor: 陈开明
IPC: G06F18/23 , G06F18/214
Abstract: 本发明公开了基于隔离分布核的聚类方法及装置,属于数据处理技术领域。包括以下步骤:输入数据;根据输入的数据获得隔离分布核,识别出局部对比度高的点,成为聚类种子成员,生成初始聚类;对初始聚类进行若干次迭代,得到二次聚类;对二次聚类边缘进行细化,得到最终聚类。本发明相较于现有技术,其优点在于:在不使用EM程序的情况下,实现了与现有K‑Modes聚类算法相同的目标函数,聚类性能好,不依赖于随机初始化且能够发现任意形状和大小的集群。
-
公开(公告)号:CN111666316B
公开(公告)日:2023-09-15
申请号:CN202010565100.4
申请日:2020-06-19
Applicant: 南京大学
IPC: G06F16/2458 , G06F18/22
Abstract: 本发明公开了一种隔离分布核构建方法、异常数据检测方法及装置,属于机器学习和数据挖掘技术领域。采用的新的隔离分布核,给定一个数据集,将输入空间划分为隔离分区:每个分区将一个点与训练集中的其余点隔离。在执行点异常检测时,隔离分布核被用于测量点与给定数据集之间的相似性,似度最低的点被视为点异常,为了检测群数据集中的群异常,在两个层级使用隔离分布核,在第一级,将输入空间中数据集中的每个群都映射到希尔伯特空间一个点,在第二级,使用IDK测量希尔伯特空间映射后的点和点集之间的相似性,希尔伯特空间点异常为对应输入空间中群异常,隔离分布核实现有限维度的特征映射,从而加快运行效率,并且利用数据分布提高相似性精度。
-
公开(公告)号:CN118093951A
公开(公告)日:2024-05-28
申请号:CN202410340723.X
申请日:2024-03-25
Applicant: 南京大学
IPC: G06F16/901 , G06Q50/00 , G06F18/23
Abstract: 本发明涉及图数据处理技术领域,特别是一种用于社区检测的多层级加权分布核图嵌入方法,本发明实现方法:包括以下组件和步骤:用于对输入的属性图进行归一化处理和邻接矩阵的构建,包括构建加权邻接矩阵以反映图中节点间的权重信息;加权分布核构建模块,基于节点的属性分布和节点度分布信息,采用包括孤立核函数在内的加权分布核计算节点间的分布相似度,用于优化嵌入表示的生成过程;逐层应用加权分布核,生成节点的多层级嵌入表示,其中每一层的嵌入表示都基于上一层的嵌入表示以及当前层的分布核加权,通过控制加权分布核的应用层数来调节信息聚合的深度,以有效避免过平滑问题。
-
-
-
-
-