一种基于簇排列的面向主题或查询的多文档摘要方法

    公开(公告)号:CN1828609A

    公开(公告)日:2006-09-06

    申请号:CN200610072587.2

    申请日:2006-04-13

    Abstract: 本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。

    一种多模态层次式视频描述生成方法和系统

    公开(公告)号:CN117596453A

    公开(公告)日:2024-02-23

    申请号:CN202311503224.X

    申请日:2023-11-13

    Applicant: 北京大学

    Inventor: 万小军 刘辉

    Abstract: 本发明公布了一种多模态层次式视频描述生成方法和系统,包括候选事件提取与描述生成过程以及多模态层次式段落描述生成过程,针对视频段落描述生成任务进行改进,为一段包含多个事件的视频生成完整的更准确的段落级描述,可缓解原有模型对视频中事件检测精度不足的问题,加强描述模型对多模态多层级信息的利用,提升了视频描述的总体质量。属于人工智能与自然语言处理交叉技术领域。

    对象项目的文稿生成方法、装置、电子设备及存储介质

    公开(公告)号:CN111291545B

    公开(公告)日:2023-06-30

    申请号:CN202010089052.6

    申请日:2020-02-12

    Abstract: 本发明实施例公开了一种对象项目的文稿生成方法、装置、电子设备及存储介质,方法包括:获取存储的至少一个对象项目以及与各对象项目关联的对象数值;对第一时间段的对象数值以及与第二时间段的对象数值相比第一时间段的对象数值的变化进行评价,根据评价结果从对象项目及对象数值中选择目标对象项目和目标对象数值;将补充信息补充到目标对象项目和目标对象数值中,生成文稿,并将生成的文稿进行输出。通过对第一时间段的对象数值以及与第二时间段的对象数值相比第一时间段的对象数值的变化进行评价,能够根据选择的目标对象项目和目标对象数值自动生成对象项目的文稿,以更高的精度选择更有实际意义的对象数值,为用户提供更有益的信息。

    一种新闻综述生成方法与系统

    公开(公告)号:CN106874469A

    公开(公告)日:2017-06-20

    申请号:CN201710082757.3

    申请日:2017-02-16

    Applicant: 北京大学

    Inventor: 张建敏 万小军

    Abstract: 本发明公开了一种新颖的基于段落进行新闻综述生成的方法与系统,涉及语言文字处理领域。目前有大量关于同一个事件的新闻报道,且新闻报道的综述都是由人工编辑的,经济成本高,且很难保证时效性。本发明提出基于段落重新分割,排序,选择并融合的新闻综述生成方法与系统,有效提高新闻综述的时效性,降低编辑成本。其包括如下步骤:针对原始新闻材料的段落重新分割构建;对新闻材料重新构建出的段落进行重要性预测;根据段落重要性进行段落选择,融合;对选择出来的段落进行重排序,构成新闻综述。本发明适用于介绍同一事件的大量新闻报道。

    为文档集自动生成摘要的方法及装置

    公开(公告)号:CN101446940B

    公开(公告)日:2011-09-28

    申请号:CN200710187480.7

    申请日:2007-11-27

    Abstract: 本发明公开了一种为文档集自动生成摘要的方法及装置,涉及语言文字处理领域,为了解决现有技术为文档集生成摘要时,需要对文档集中全部文档的每个句子重新计算权重,造成生成摘要的速度慢、效率低的问题而发明;其包括如下步骤:计算所述新文档中每个句子的权重;更新所述文档集已有摘要中句子的权重;获得新文档和文档集已有摘要的所有非重复句子的权重排序;生成所述文档集的新摘要。本发明适用于多文档进行自动生成摘要。

    一种同时抽取文档摘要和关键词的方法及系统

    公开(公告)号:CN101398814B

    公开(公告)日:2010-08-25

    申请号:CN200710122530.3

    申请日:2007-09-26

    Abstract: 本发明涉及一种同时抽取文档摘要和关键词的方法,属于语言文字处理技术。现有的方法将文档摘要和关键词抽取当作两个不相关的任务,分别对这两个任务进行处理。然而这两个任务具有相同的本质,本发明所述的方法能够利用其相同本质同时完成对文档摘要和关键词的抽取。本方法利用图学习模型综合利用文档中句子与句子、句子与词以及词与词之间的关系,对句子和词的重要性进行准确评估,最终分别采用重要的句子和词作为文档的摘要和关键词。采用本发明所述的方法,一方面能够同时提取文档摘要和关键词,另一方面能够取得更好的摘要与关键词抽取效果。本方法可广泛应用于文本信息处理与挖掘等领域。

Patent Agency Ranking