中文比较句分类器模型生成、中文比较句识别方法及装置

    公开(公告)号:CN101727462A

    公开(公告)日:2010-06-09

    申请号:CN200810224334.1

    申请日:2008-10-17

    Abstract: 本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。

    一种同时抽取文档摘要和关键词的方法及系统

    公开(公告)号:CN101398814A

    公开(公告)日:2009-04-01

    申请号:CN200710122530.3

    申请日:2007-09-26

    Abstract: 本发明涉及一种同时抽取文档摘要和关键词的方法,属于语言文字处理技术。现有的方法将文档摘要和关键词抽取当作两个不相关的任务,分别对这两个任务进行处理。然而这两个任务具有相同的本质,本发明所述的方法能够利用其相同本质同时完成对文档摘要和关键词的抽取。本方法利用图学习模型综合利用文档中句子与句子、句子与词以及词与词之间的关系,对句子和词的重要性进行准确评估,最终分别采用重要的句子和词作为文档的摘要和关键词。采用本发明所述的方法,一方面能够同时提取文档摘要和关键词,另一方面能够取得更好的摘要与关键词抽取效果。本方法可广泛应用于文本信息处理与挖掘等领域。

    一种基于簇排列的面向主题或查询的多文档摘要方法

    公开(公告)号:CN100418093C

    公开(公告)日:2008-09-10

    申请号:CN200610072587.2

    申请日:2006-04-13

    Abstract: 本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。

    一种基于文档扩展的单文档摘要方法

    公开(公告)号:CN1916904A

    公开(公告)日:2007-02-21

    申请号:CN200610112788.0

    申请日:2006-09-01

    Abstract: 本发明涉及一种基于文档扩展的单文档摘要方法,属于语言文字处理技术领域。现有的几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。例如,目前的基于图排列的单文档自动摘要方法只利用了单篇文档内句子之间的相似关系选择重要的句子生成摘要。本发明所述的方法充分利用了相似文档之间的信息冗余性来改进现有的单文档自动摘要方法,该方法首先从文档集中找到与当前文档最相似的少数几篇文档,然后基于这些文档对当前文档中的句子进行全局重要性评价,进而从当前文档中挑选真正重要的句子生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果。

    一种面向学术文献的知识推荐方法

    公开(公告)号:CN105955975A

    公开(公告)日:2016-09-21

    申请号:CN201610235634.4

    申请日:2016-04-15

    Applicant: 北京大学

    CPC classification number: G06F16/35 G06F16/313 G06K9/6269

    Abstract: 本发明涉及一种面向学术文献的知识推荐的方法,属于语言文字处理技术。为寻求有效的研究方法来解决研究工作中的问题,研究人员需要阅读大量的文献,深入了解领域内的学术知识与相关技术,通过思考、分析和大量的实验与尝试,提出并验证自己的想法。对于缺乏经验的研究人员,这项工作的难度更大。本发明提出构建基于学术概念间关系规约化的矩阵分解模型,为学术任务或者问题推荐学术方法,作为研究工作的参考。在传统矩阵分解模型的基础上,结合同类学术概念间的关系作为规约化条件,构建基于学术任务或者方法概念间关系规约化的矩阵分解模型MF‑TRR与MF‑MRR。面向学术文献的知识推荐致力于为研究人员的工作带来灵感,减轻研究工作负担,提高科研成果产量。

Patent Agency Ranking