-
公开(公告)号:CN1828609A
公开(公告)日:2006-09-06
申请号:CN200610072587.2
申请日:2006-04-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
Abstract: 本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。
-
公开(公告)号:CN117596453A
公开(公告)日:2024-02-23
申请号:CN202311503224.X
申请日:2023-11-13
Applicant: 北京大学
IPC: H04N21/84 , G06N3/0499 , G06N3/045 , G06N3/08
Abstract: 本发明公布了一种多模态层次式视频描述生成方法和系统,包括候选事件提取与描述生成过程以及多模态层次式段落描述生成过程,针对视频段落描述生成任务进行改进,为一段包含多个事件的视频生成完整的更准确的段落级描述,可缓解原有模型对视频中事件检测精度不足的问题,加强描述模型对多模态多层级信息的利用,提升了视频描述的总体质量。属于人工智能与自然语言处理交叉技术领域。
-
公开(公告)号:CN111291545B
公开(公告)日:2023-06-30
申请号:CN202010089052.6
申请日:2020-02-12
Applicant: 株式会社三菱综合研究所 , 北京大学 , 株式会社PKUTECH , 北京天公瑞丰科技有限公司
IPC: G06F40/18 , G06F40/106 , G06Q40/12
Abstract: 本发明实施例公开了一种对象项目的文稿生成方法、装置、电子设备及存储介质,方法包括:获取存储的至少一个对象项目以及与各对象项目关联的对象数值;对第一时间段的对象数值以及与第二时间段的对象数值相比第一时间段的对象数值的变化进行评价,根据评价结果从对象项目及对象数值中选择目标对象项目和目标对象数值;将补充信息补充到目标对象项目和目标对象数值中,生成文稿,并将生成的文稿进行输出。通过对第一时间段的对象数值以及与第二时间段的对象数值相比第一时间段的对象数值的变化进行评价,能够根据选择的目标对象项目和目标对象数值自动生成对象项目的文稿,以更高的精度选择更有实际意义的对象数值,为用户提供更有益的信息。
-
公开(公告)号:CN109918650B
公开(公告)日:2020-10-23
申请号:CN201910109002.7
申请日:2019-02-03
Applicant: 北京大学 , 广东智媒云图科技股份有限公司
IPC: G06F40/289 , G06F16/332 , G06F16/35 , G06N3/04 , G06N3/08 , G10L13/04 , G10L15/26
Abstract: 本发明公布了一种自动生成采访稿的采访智能机器人装置及自动生成采访稿的智能采访方法,采访智能机器人装置包括采访模板、知识库、回答判别模块、关键词抽取模块、回答追问模块、语音合成模块、语音识别模块、文字输入模块、采访稿一键生成模块、情绪判别及调整模块、语速选择模块、检索模块;使用构建的采访模板结合检索的方式,根据用户回答问题的情况,按照不同逻辑支线进行采访,并且从用户回答中提取关键词信息,检索相应内容进行追问;通过提取关键词及采访模板匹配的方式,自动生成采访稿。本发明能够解决采访过程时聊天轮次少,聊天逻辑架构不清晰,语音识别不准确等问题。
-
公开(公告)号:CN106874469A
公开(公告)日:2017-06-20
申请号:CN201710082757.3
申请日:2017-02-16
Applicant: 北京大学
Abstract: 本发明公开了一种新颖的基于段落进行新闻综述生成的方法与系统,涉及语言文字处理领域。目前有大量关于同一个事件的新闻报道,且新闻报道的综述都是由人工编辑的,经济成本高,且很难保证时效性。本发明提出基于段落重新分割,排序,选择并融合的新闻综述生成方法与系统,有效提高新闻综述的时效性,降低编辑成本。其包括如下步骤:针对原始新闻材料的段落重新分割构建;对新闻材料重新构建出的段落进行重要性预测;根据段落重要性进行段落选择,融合;对选择出来的段落进行重排序,构成新闻综述。本发明适用于介绍同一事件的大量新闻报道。
-
公开(公告)号:CN102122296B
公开(公告)日:2012-09-12
申请号:CN201110048758.9
申请日:2008-12-05
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种检索结果聚类方法及装置,用以解决按照现有技术提供的检索结果聚类方法使得用户难以按照聚类标签找到符合自己需求的检索结果的问题。其中,本发明公开的该方法包括步骤:从检索结果中选取规定数目的短语;针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。
-
公开(公告)号:CN101446940B
公开(公告)日:2011-09-28
申请号:CN200710187480.7
申请日:2007-11-27
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务技术有限公司
IPC: G06F17/27
Abstract: 本发明公开了一种为文档集自动生成摘要的方法及装置,涉及语言文字处理领域,为了解决现有技术为文档集生成摘要时,需要对文档集中全部文档的每个句子重新计算权重,造成生成摘要的速度慢、效率低的问题而发明;其包括如下步骤:计算所述新文档中每个句子的权重;更新所述文档集已有摘要中句子的权重;获得新文档和文档集已有摘要的所有非重复句子的权重排序;生成所述文档集的新摘要。本发明适用于多文档进行自动生成摘要。
-
公开(公告)号:CN102103594A
公开(公告)日:2011-06-22
申请号:CN200910242975.4
申请日:2009-12-22
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
Abstract: 本发明提供了字符数据识别及处理的方法和装置,本发明的方法包括:根据基准语料和基准模板对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;获得各个实体名称的特征缀频数;根据所述特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;将从所述待处理的字符数据中识别出的实体名称作为数据参数执行后续分析处理。本发明加入了特征缀作为识别特征列,避免了后期检索、翻译时预定义字符数据识别误差较大的问题,提高了命名实体的识别精度,避免表达自由或不足够规范而未被识别或被错误识别出的命名实体。
-
公开(公告)号:CN102087648A
公开(公告)日:2011-06-08
申请号:CN200910242055.2
申请日:2009-12-03
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种新闻评论页面的爬取方法及系统,属于信息检索和数据集成技术领域。该方法及系统首先从新闻网站起始页面出发,对页面进行广度遍历,在遍历过程中获取满足深度限制的页面信息;然后计算页面的特征值,根据特征值和预设阈值之间的大小关系,从页面中识别出新闻评论页面;最后获取新闻评论页面的翻页链接,并根据翻页链接获取其他新闻评论页面。本发明所述方法及系统,能够从新闻网站的网页中自动爬取出新闻评论页面,而且爬取的速度快,爬取的新闻评论页面全面。
-
公开(公告)号:CN101398814B
公开(公告)日:2010-08-25
申请号:CN200710122530.3
申请日:2007-09-26
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务技术有限公司
Abstract: 本发明涉及一种同时抽取文档摘要和关键词的方法,属于语言文字处理技术。现有的方法将文档摘要和关键词抽取当作两个不相关的任务,分别对这两个任务进行处理。然而这两个任务具有相同的本质,本发明所述的方法能够利用其相同本质同时完成对文档摘要和关键词的抽取。本方法利用图学习模型综合利用文档中句子与句子、句子与词以及词与词之间的关系,对句子和词的重要性进行准确评估,最终分别采用重要的句子和词作为文档的摘要和关键词。采用本发明所述的方法,一方面能够同时提取文档摘要和关键词,另一方面能够取得更好的摘要与关键词抽取效果。本方法可广泛应用于文本信息处理与挖掘等领域。
-
-
-
-
-
-
-
-
-