一种基于集成学习和词句综合信息的文本蕴涵识别方法

    公开(公告)号:CN107133212B

    公开(公告)日:2020-06-26

    申请号:CN201710311135.3

    申请日:2017-05-05

    Applicant: 北京大学

    Inventor: 魏薇 万小军

    Abstract: 本发明公开了一种基于集成学习和词句综合信息的文本蕴涵识别方法,涉及语言文字处理领域。目前的中文文本蕴涵识别系统主要基于词汇特征、句法特征、知识库、人工定义的规则等,然而词汇、句法信息作为独立特征训练出的模型对数据的拟合度过低,规则、知识库覆盖范围有限。本发明提出加入综合词汇和句法信息的特征来训练分类器,并利用集成学习技术,有效提高文本蕴涵识别的准确性。其包括如下步骤:数据预处理;一致性转化;特征提取;集成学习训练;投票决策分类。本发明适用于各领域句子间蕴涵关系的识别。

    一种新闻综述生成方法与系统

    公开(公告)号:CN106874469B

    公开(公告)日:2020-05-05

    申请号:CN201710082757.3

    申请日:2017-02-16

    Applicant: 北京大学

    Inventor: 张建敏 万小军

    Abstract: 本发明公开了一种新颖的基于段落进行新闻综述生成的方法与系统,涉及语言文字处理领域。目前有大量关于同一个事件的新闻报道,且新闻报道的综述都是由人工编辑的,经济成本高,且很难保证时效性。本发明提出基于段落重新分割,排序,选择并融合的新闻综述生成方法与系统,有效提高新闻综述的时效性,降低编辑成本。其包括如下步骤:针对原始新闻材料的段落重新分割构建;对新闻材料重新构建出的段落进行重要性预测;根据段落重要性进行段落选择,融合;对选择出来的段落进行重排序,构成新闻综述。本发明适用于介绍同一事件的大量新闻报道。

    一种面向体育比赛直播文字的体育新闻自动构建方法及装置

    公开(公告)号:CN105912526A

    公开(公告)日:2016-08-31

    申请号:CN201610235671.5

    申请日:2016-04-15

    Applicant: 北京大学

    CPC classification number: G06F17/277 G06F17/271

    Abstract: 本发明公开了一种新颖的面向体育比赛直播文字的体育新闻自动构建方法及装置,涉及语言文字处理领域。目前体育比赛结束后对于比赛情况进行报道的新闻都是由人工编辑的,经济成本高,且很难保证时效性。本发明提出基于学习排序框架,通过体育比赛直播文字自动构建体育新闻的方法和装置,有效提高体育新闻的时效性,降低编辑成本。其包括如下步骤:构建针对体育直播文字的学习排序模型;应用学习排序模型预测每个直播句子的权重;选取权重最高的句子集合构建体育新闻。本发明适用于比赛过程中会产生比赛文字直播的体育比赛。

    中文分词方法和装置
    54.
    发明公开

    公开(公告)号:CN103020034A

    公开(公告)日:2013-04-03

    申请号:CN201110287723.0

    申请日:2011-09-26

    Abstract: 本发明提供了中文分词方法,包括:对已分词的语料进行训练得到CRF模型;采用CRF模型对未分词的语料进行分词;判断分词成功的语料是否满足设置的条件,是则加入到已分词的语料中;循环执行上述步骤,直至已分词的语料的规模不再扩大,得到最终的CRF模型。本发明提供了中文分词装置,包括:训练模块,用于对已分词的语料进行训练得到CRF模型;分词模块,用于采用CRF模型对未分词的语料进行分词;加入模块,用于判断分词成功的语料是否满足设置的条件,是则加入到已分词的语料中;循环模块,用于循环调用训练模块、分词模块和加入模块,直至已分词的语料的规模不再扩大,得到最终的CRF模型。本发明提高了分词速率,减少了分词歧义。

    一种从网页中抽取评论内容的方法和装置

    公开(公告)号:CN102117289B

    公开(公告)日:2012-10-10

    申请号:CN200910244539.0

    申请日:2009-12-30

    Abstract: 本发明公开了一种从网页中抽取评论内容的方法和装置,涉及信息处理技术,通过建立评论页面的DOM树,并选择符合评论区抽取规则的子树抽取出评论区,再利用评论记录间的结构相似性,抽取出评论区中的评论记录,利用包含评论内容的子树的差异性,选择标准差最大的子树作为包含评论内容的子树,最后选取稳定性最小的一条路径中,稳定性差绝对值最大的相邻节点中的孩子节点作为根节点,这个子树就是要抽取的评论内容。由于利用了评论内容的无结构特性来进行抽取,而不是根据网页的模板进行抽取,所以网页的不同不影响抽取的准确性,并且不需要根据网页的模板进行复杂的配置,并通过计算去除了噪声信息,提高了从网页中抽取评论内容的效率和准确性。

    获取预定义字符数据的方法和装置

    公开(公告)号:CN102110103A

    公开(公告)日:2011-06-29

    申请号:CN200910243515.3

    申请日:2009-12-25

    Abstract: 本发明提供了一种获取预定义字符数据的方法和装置,本发明的方法包括:对待处理字符数据进行词性标注,划分出显性字符数据或/和隐性字符数据;从所述显性字符数据中查找出具有预定义字符数据类型的数据,作为所述显性字符数据的预定义字符数据;从基准字符数据的中心实体中查找出具有所述预定义字符数据类型的数据,作为与所述隐性字符数据相对应的预定义字符数据。本发明还提供一种获取预定义字符数据的装置。本发明可按照用户的需求,选择预定义类型的字符数据,对于处理语法形式不规则的句子,尤其是句子中本身不存在显性对象的句子,提高了获得的结果范围、准确度。

    一种自动计算互联网上主题演化趋势的方法及系统

    公开(公告)号:CN101231640B

    公开(公告)日:2010-09-22

    申请号:CN200710062943.7

    申请日:2007-01-22

    Abstract: 本发明涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。

    一种对文档集进行批量单文档摘要的方法及系统

    公开(公告)号:CN100511214C

    公开(公告)日:2009-07-08

    申请号:CN200610114590.6

    申请日:2006-11-16

    Abstract: 本发明涉及一种对文档集进行批量单文档摘要的方法及系统,属语言文字处理技术领域。现有几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。本发明所述方法能够对给定文档集中的所有文档批量生成单文档摘要。该方法首先对给定的文档集进行文档聚类,生成若干文档类簇,属于同一类簇的文档具有相似的主题。给定每个文档类簇,对于该类簇中的所有句子统一进行全局重要性评价,然后基于类簇中的每篇文档对句子进行文档内差异性惩罚,最后从该文档中挑选真正重要并且新颖的句子为该文档生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果,同时以批量生成的方式提高了摘要效率。

Patent Agency Ranking