用于XML文档分类的语义相似度度量方法

    公开(公告)号:CN102033867A

    公开(公告)日:2011-04-27

    申请号:CN201010590689.X

    申请日:2010-12-14

    Abstract: 本发明公开了一种用于XML文档分类的语义相似度度量方法,依次将每个文档分解为结构信息和内容信息;从内容信息中抽取关键字特征,构造关键字特征空间;从结构信息中抽取所有的路径,构造路径字典;统计关键字特征空间中每个关键字特征在每个文档的任意路径中出现的频率,同时包含该关键字特征和路径的文档个数以及包含该关键字特征的文档个数等信息,计算关键字特征空间中每个关键字特征在文档中的权重;根据余弦度量计算任意两个文档之间的相似度。本发明应用于XML文档的分类,可以提高准确率。

    基于语义相关的XML文档关键字检索排序方法

    公开(公告)号:CN102081660A

    公开(公告)日:2011-06-01

    申请号:CN201110007177.0

    申请日:2011-01-13

    Abstract: 本发明公开了一种基于语义相关的XML文档关键字检索排序方法,依次解析XML文档,计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度,优化检索时间,对所输入的查询关键字进行单词归根处理,在倒排索引中取出关键字对应的主题节点信息以及相关度信息,对距离关键字最近的主题进行检索,对检索结果进行相关度从高到低排序,对距离关键字次近的主题进行检索,根据结果的Dewey码返回信息片段给用户。本发明针对XML数据独有的结构语义特点,提出了SRank相关度检索模型及方法,可以提高检索结果的准确率。

    基于语义相关的XML关键字top-k查询方法

    公开(公告)号:CN102063474B

    公开(公告)日:2012-10-10

    申请号:CN201010598619.9

    申请日:2010-12-16

    Abstract: 本发明公开了一种基于语义相关的XML关键字top-k查询方法,以树结构对需XML文档进行预处理,将XML文档中能够满足下面条件的信息片段看作虚拟文档;根据相关度计算模型,计算出每个虚拟文档和被该虚拟文档所包含的词项之间的相关度,并对每个词项建立包含该词项虚拟文档的倒排表,倒排表的顺序按照相关度的大小由高到底排序;在虚拟文档d和关键字查询Q之间的相关度的基础上实现top-k查询。本发明能够在不计算出所有查询结果的情况下,根据用户的需要提前返回给用户最相关若干查询结果,避免冗余操作,提高了检索的效率和质量。

    基于语义相关的XML关键字top-k查询方法

    公开(公告)号:CN102063474A

    公开(公告)日:2011-05-18

    申请号:CN201010598619.9

    申请日:2010-12-16

    Abstract: 本发明公开了一种基于语义相关的XML关键字top-k查询方法,以树结构对需XML文档进行预处理,将XML文档中能够满足下面条件的信息片段看作虚拟文档;根据相关度计算模型,计算出每个虚拟文档和被该虚拟文档所包含的词项之间的相关度,并对每个词项建立包含该词项虚拟文档的倒排表,倒排表的顺序按照相关度的大小由高到底排序;在虚拟文档d和关键字查询Q之间的相关度的基础上实现top-k查询。本发明能够在不计算出所有查询结果的情况下,根据用户的需要提前返回给用户最相关若干查询结果,避免冗余操作,提高了检索的效率和质量。

    基于语义相关的XML文档关键字检索排序方法

    公开(公告)号:CN102081660B

    公开(公告)日:2012-11-21

    申请号:CN201110007177.0

    申请日:2011-01-13

    Abstract: 本发明公开了一种基于语义相关的XML文档关键字检索排序方法,依次解析XML文档,计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度,优化检索时间,对所输入的查询关键字进行单词归根处理,在倒排索引中取出关键字对应的主题节点信息以及相关度信息,对距离关键字最近的主题进行检索,对检索结果进行相关度从高到低排序,对距离关键字次近的主题进行检索,根据结果的Dewey码返回信息片段给用户。本发明针对XML数据独有的结构语义特点,提出了SRank相关度检索模型及方法,可以提高检索结果的准确率。

    用于XML文档分类的语义相似度度量方法

    公开(公告)号:CN102033867B

    公开(公告)日:2012-07-25

    申请号:CN201010590689.X

    申请日:2010-12-14

    Abstract: 本发明公开了一种用于XML文档分类的语义相似度度量方法,依次将每个文档分解为结构信息和内容信息;从内容信息中抽取关键字特征,构造关键字特征空间;从结构信息中抽取所有的路径,构造路径字典;统计关键字特征空间中每个关键字特征在每个文档的任意路径中出现的频率,同时包含该关键字特征和路径的文档个数以及包含该关键字特征的文档个数等信息,计算关键字特征空间中每个关键字特征在文档中的权重;根据余弦度量计算任意两个文档之间的相似度。本发明应用于XML文档的分类,可以提高准确率。

Patent Agency Ranking