为文档集自动生成摘要的方法及装置

    公开(公告)号:CN101446940A

    公开(公告)日:2009-06-03

    申请号:CN200710187480.7

    申请日:2007-11-27

    Abstract: 本发明公开了一种为文档集自动生成摘要的方法及装置,涉及语言文字处理领域,为了解决现有技术为文档集生成摘要时,需要对文档集中全部文档的每个句子重新计算权重,造成生成摘要的速度慢、效率低的问题而发明;其包括如下步骤:计算所述新文档中每个句子的权重;更新所述文档集已有摘要中句子的权重;获得新文档和文档集已有摘要的所有非重复句子的权重排序;生成所述文档集的新摘要。本发明适用于多文档进行自动生成摘要。

    一种基于句子关系图的多文档摘要方法

    公开(公告)号:CN100435145C

    公开(公告)日:2008-11-19

    申请号:CN200610072586.8

    申请日:2006-04-13

    Abstract: 本发明涉及一种基于句子关系图的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法中,没有采用有效的措施保持摘要中句子的新颖性,也没有区分句子之间不同类型的关系,只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间可扩散的特性。本发明所述的方法提出了一种完整的基于句子关系图的多文档摘要架构,利用句子关系的扩散特性计算句子之间的真实语义关系,同时,区别对待了文档内句子关系和文档间句子关系这两种不同的关系。采用本发明所述的方法,扩展了基于图结构的摘要方法,在抽取句子的过程中既考虑句子的信息丰富程度,又考虑其新颖程度,在实际评测中取得了很好的效果。

    一种基于集成学习和词句综合信息的文本蕴涵识别方法

    公开(公告)号:CN107133212A

    公开(公告)日:2017-09-05

    申请号:CN201710311135.3

    申请日:2017-05-05

    Applicant: 北京大学

    Inventor: 魏薇 万小军

    Abstract: 本发明公开了一种基于集成学习和词句综合信息的文本蕴涵识别方法,涉及语言文字处理领域。目前的中文文本蕴涵识别系统主要基于词汇特征、句法特征、知识库、人工定义的规则等,然而词汇、句法信息作为独立特征训练出的模型对数据的拟合度过低,规则、知识库覆盖范围有限。本发明提出加入综合词汇和句法信息的特征来训练分类器,并利用集成学习技术,有效提高文本蕴涵识别的准确性。其包括如下步骤:数据预处理;一致性转化;特征提取;集成学习训练;投票决策分类。本发明适用于各领域句子间蕴涵关系的识别。

    基于微博的娱乐新闻自动构建技术与系统

    公开(公告)号:CN107102976A

    公开(公告)日:2017-08-29

    申请号:CN201710177559.5

    申请日:2017-03-23

    Applicant: 北京大学

    Inventor: 王天明 万小军

    Abstract: 本发明公开了一种基于微博的娱乐新闻自动构建技术与系统,涉及语言文字处理领域。目前社交媒体在互联网上十分流行,有大量的娱乐新闻从微博中诞生。基于微博的娱乐新闻构建主要分为两个阶段。第一阶段为对微博是否具有新闻价值进行判别,筛选出内容有意义、公众关注度高或者引发热烈讨论的微博,主要通过对微博提取特征然后使用随机森林进行分类预测来完成;第二阶段新闻生成阶段,对前一阶段过滤后得到的微博使用模板为主的方式构建新闻。在收集大量的微博数据并标注后,本系统通过以上两个阶段即可完成自动的娱乐新闻构建,既能生成丰富的用户关注的新闻,又能有效节省人力物力。

    一种从网页中抽取信息的方法及装置

    公开(公告)号:CN101996190B

    公开(公告)日:2012-08-08

    申请号:CN200910090455.6

    申请日:2009-08-12

    Abstract: 本发明公开了一种从网页中抽取信息的方法及装置,用以解决现有技术中不能从非结构化格式的网页中获取准确的信息问题。该方法包括:查找网页中的每种信息属性,获取每种信息属性对应的信息属性候选集,根据保存的信息属性间的位置关系与布局关系概率的对应关系,查找至少两种信息属性间的至少一个最大布局关系概率,并确定查找到的最大布局关系概率对应的位置关系,从所述至少两种信息属性对应的信息属性候选集中,抽取满足所述位置关系的信息属性组合。

    一种从网页中抽取评论内容的方法和装置

    公开(公告)号:CN102117289A

    公开(公告)日:2011-07-06

    申请号:CN200910244539.0

    申请日:2009-12-30

    Abstract: 本发明公开了一种从网页中抽取评论内容的方法和装置,涉及信息处理技术,通过建立评论页面的DOM树,并选择符合评论区抽取规则的子树抽取出评论区,再利用评论记录间的结构相似性,抽取出评论区中的评论记录,利用包含评论内容的子树的差异性,选择标准差最大的子树作为包含评论内容的子树,最后选取稳定性最小的一条路径中,稳定性差绝对值最大的相邻节点中的孩子节点作为根节点,这个子树就是要抽取的评论内容。由于利用了评论内容的无结构特性来进行抽取,而不是根据网页的模板进行抽取,所以网页的不同不影响抽取的准确性,并且不需要根据网页的模板进行复杂的配置,并通过计算去除了噪声信息,提高了从网页中抽取评论内容的效率和准确性。

    中文评论褒贬分析方法及装置

    公开(公告)号:CN101751431A

    公开(公告)日:2010-06-23

    申请号:CN200810239685.X

    申请日:2008-12-15

    Inventor: 万小军

    Abstract: 本发明公开了一种中文评论褒贬分析方法及装置,用以解决现有技术中采用基于语义计算的方法对中文评论进行分析时,分析结果的准确性不佳的问题。该方法将输入的中文评论翻译为对应的英文评论;并对翻译得到的英文评论执行拆分处理,以及将拆分处理结果与英文褒贬词汇库中的对应英文语义资源进行匹配,执行褒贬分析;输出分析结果作为对所述中文评论进行褒贬分析的褒贬倾向值。

Patent Agency Ranking