一种自动计算互联网上主题演化趋势的方法及系统

    公开(公告)号:CN101231640A

    公开(公告)日:2008-07-30

    申请号:CN200710062943.7

    申请日:2007-01-22

    Abstract: 本发明涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。

    一种改进的基于文档结构的文档相似性度量方法

    公开(公告)号:CN1828610A

    公开(公告)日:2006-09-06

    申请号:CN200610072588.7

    申请日:2006-04-13

    Abstract: 本发明涉及一种改进的基于文档子主题结构的文档相似性度量方法,属于语言的计算机处理和信息检索技术领域。针对传统相似性度量方法丢失了词语在文档各个部分的分布信息这个缺点以及利用最优匹配的基于文档子主题结构的方法只允许子主题之间一对一匹配的缺点。本发明所述的方法利用文档结构分析方法分别得到所述两个文档A和B的子主题结构,然后通过构建一个带权二部图G并根据求解线性规划的方法求解其货物运输距离EMD(A,B),最后根据1-EMD(A,B)得到文档A和B之间的相似度值。本发明允许文档子主题之间在一定约束条件下进行多对多匹配,从而提高了文档相似性判断的准确度,同时,该方法具有更好的鲁棒性。

    一种自动检测新闻事件的方法

    公开(公告)号:CN1822000A

    公开(公告)日:2006-08-23

    申请号:CN200610007219.X

    申请日:2006-02-14

    Abstract: 本发明涉及一种自动检测新闻事件的方法,属于智能信息处理技术。现有技术中,事件检测技术仅仅考虑在固定的小数据集合上的错检率和漏检率,常出现新闻事件被误分为多个小事件的情况,并且事件检测的精确度不高,常出现检测到的事件内容过于宽泛的情况。本发明所述的方法针对持续新闻流事件检测的实际应用,通过引入事件排序,事件合并和调整,新闻报道淘汰,以及新闻事件描述等步骤,提出了一个实用的新闻事件检测方法。采用本发明所述的方法,能够明显提高新闻事件的检测效果,大大增强其实用性。本方法可广泛地应用于智能信息处理。

    一种基于簇排列的面向主题或查询的多文档摘要方法

    公开(公告)号:CN100418093C

    公开(公告)日:2008-09-10

    申请号:CN200610072587.2

    申请日:2006-04-13

    Abstract: 本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。

    一种基于文档扩展的单文档摘要方法

    公开(公告)号:CN1916904A

    公开(公告)日:2007-02-21

    申请号:CN200610112788.0

    申请日:2006-09-01

    Abstract: 本发明涉及一种基于文档扩展的单文档摘要方法,属于语言文字处理技术领域。现有的几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。例如,目前的基于图排列的单文档自动摘要方法只利用了单篇文档内句子之间的相似关系选择重要的句子生成摘要。本发明所述的方法充分利用了相似文档之间的信息冗余性来改进现有的单文档自动摘要方法,该方法首先从文档集中找到与当前文档最相似的少数几篇文档,然后基于这些文档对当前文档中的句子进行全局重要性评价,进而从当前文档中挑选真正重要的句子生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果。

    一种自动计算互联网上主题演化趋势的方法及系统

    公开(公告)号:CN101231640B

    公开(公告)日:2010-09-22

    申请号:CN200710062943.7

    申请日:2007-01-22

    Abstract: 本发明涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。

    一种对文档集进行批量单文档摘要的方法及系统

    公开(公告)号:CN100511214C

    公开(公告)日:2009-07-08

    申请号:CN200610114590.6

    申请日:2006-11-16

    Abstract: 本发明涉及一种对文档集进行批量单文档摘要的方法及系统,属语言文字处理技术领域。现有几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。本发明所述方法能够对给定文档集中的所有文档批量生成单文档摘要。该方法首先对给定的文档集进行文档聚类,生成若干文档类簇,属于同一类簇的文档具有相似的主题。给定每个文档类簇,对于该类簇中的所有句子统一进行全局重要性评价,然后基于类簇中的每篇文档对句子进行文档内差异性惩罚,最后从该文档中挑选真正重要并且新颖的句子为该文档生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果,同时以批量生成的方式提高了摘要效率。

    一种改进的基于文档结构的文档相似性度量方法

    公开(公告)号:CN100412869C

    公开(公告)日:2008-08-20

    申请号:CN200610072588.7

    申请日:2006-04-13

    Abstract: 本发明涉及一种改进的基于文档子主题结构的文档相似性度量方法,属于语言的计算机处理和信息检索技术领域。针对传统相似性度量方法丢失了词语在文档各个部分的分布信息这个缺点以及利用最优匹配的基于文档子主题结构的方法只允许子主题之间一对一匹配的缺点。本发明所述的方法利用文档结构分析方法分别得到所述两个文档A和B的子主题结构,然后通过构建一个带权二部图G并根据求解线性规划的方法求解其货物运输距离EMD(A,B),最后根据1-EMD(A,B)得到文档A和B之间的相似度值。本发明允许文档子主题之间在一定约束条件下进行多对多匹配,从而提高了文档相似性判断的准确度,同时,该方法具有更好的鲁棒性。

    一种对文档集进行批量单文档摘要的方法及系统

    公开(公告)号:CN101187919A

    公开(公告)日:2008-05-28

    申请号:CN200610114590.6

    申请日:2006-11-16

    Abstract: 本发明涉及一种对文档集进行批量单文档摘要的方法及系统,属语言文字处理技术领域。现有几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。本发明所述方法能够对给定文档集中的所有文档批量生成单文档摘要。该方法首先对给定的文档集进行文档聚类,生成若干文档类簇,属于同一类簇的文档具有相似的主题。给定每个文档类簇,对于该类簇中的所有句子统一进行全局重要性评价,然后基于类簇中的每篇文档对句子进行文档内差异性惩罚,最后从该文档中挑选真正重要并且新颖的句子为该文档生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果,同时以批量生成的方式提高了摘要效率。

    基于文档结构的文档相似性度量方法

    公开(公告)号:CN1959671A

    公开(公告)日:2007-05-09

    申请号:CN200510117412.4

    申请日:2005-10-31

    Abstract: 本发明公开了一种基于文档结构的文档相似性度量方法,涉及一种自然语言的处理方法。针对度量方法中丢失了词语在文档各个部分的分布信息,本发明提出的方法包括以下步骤:(1)对于需要比较的两个文档X和Y,分别使用文档结构分析方法找出每个文档的子主题序列;(2)利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值;(3)对步骤(1)及步骤(2)得到的子主题序列及子主题之间的相似度值,建立一个带权二部图G={X,Y,E};(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。本发明提出的方法,提高了文档相似性判断的准确度。

Patent Agency Ranking