-
公开(公告)号:CN101799825B
公开(公告)日:2012-04-25
申请号:CN201010118060.5
申请日:2010-03-05
Applicant: 南开大学
IPC: G06F17/30
Abstract: 一种新的基于扩展邻接矩阵的XML文档结构及语义相似性计算方法,属于数据挖掘技术领域。该方法具体包括:XML文档树的编码;对于编码后的两个文档首先生成模式文档节点列表和数据源文档节点列表,然后生成模式扩展邻接矩阵和数据源扩展邻接矩阵(P1,P2);通过cos(P1,P2)计算XML文档相似性。该方法充分考虑了不同层次节点对文档贡献的不同,且在XML文档节点数为n的情况下,此方法的时间复杂度最高为O(n2),优于编辑距离算法。
-
公开(公告)号:CN101799825A
公开(公告)日:2010-08-11
申请号:CN201010118060.5
申请日:2010-03-05
Applicant: 南开大学
IPC: G06F17/30
Abstract: 一种新的基于扩展邻接矩阵的XML文档结构及语义相似性计算方法,属于数据挖掘技术领域。该方法具体包括:XML文档树的编码;对于编码后的两个文档首先生成模式文档节点列表和数据源文档节点列表,然后生成模式扩展邻接矩阵和数据源扩展邻接矩阵(P1,P2);通过cos(P1,P2)计算XML文档相似性。该方法充分考虑了不同层次节点对文档贡献的不同,且在XML文档节点数为n的情况下,此方法的时间复杂度最高为O(n2),优于编辑距离算法。
-