-
公开(公告)号:CN101739426A
公开(公告)日:2010-06-16
申请号:CN200810226101.5
申请日:2008-11-13
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
Abstract: 本发明公开了一种多文档摘要的生成方法及装置,用以解决现有技术中生成的多文档摘要的可读性差的问题。该方法从多篇文档中选择若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。如本发明提出的方案,充分考虑了摘要句间的连续性和与主题内容的相关性,从而可以有效的提高生成的多文档摘要的可读性。
-
公开(公告)号:CN101727462A
公开(公告)日:2010-06-09
申请号:CN200810224334.1
申请日:2008-10-17
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
Abstract: 本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。
-
公开(公告)号:CN101398814A
公开(公告)日:2009-04-01
申请号:CN200710122530.3
申请日:2007-09-26
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务技术有限公司
Abstract: 本发明涉及一种同时抽取文档摘要和关键词的方法,属于语言文字处理技术。现有的方法将文档摘要和关键词抽取当作两个不相关的任务,分别对这两个任务进行处理。然而这两个任务具有相同的本质,本发明所述的方法能够利用其相同本质同时完成对文档摘要和关键词的抽取。本方法利用图学习模型综合利用文档中句子与句子、句子与词以及词与词之间的关系,对句子和词的重要性进行准确评估,最终分别采用重要的句子和词作为文档的摘要和关键词。采用本发明所述的方法,一方面能够同时提取文档摘要和关键词,另一方面能够取得更好的摘要与关键词抽取效果。本方法可广泛应用于文本信息处理与挖掘等领域。
-
公开(公告)号:CN100418093C
公开(公告)日:2008-09-10
申请号:CN200610072587.2
申请日:2006-04-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
Abstract: 本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。
-
公开(公告)号:CN1916904A
公开(公告)日:2007-02-21
申请号:CN200610112788.0
申请日:2006-09-01
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
Abstract: 本发明涉及一种基于文档扩展的单文档摘要方法,属于语言文字处理技术领域。现有的几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。例如,目前的基于图排列的单文档自动摘要方法只利用了单篇文档内句子之间的相似关系选择重要的句子生成摘要。本发明所述的方法充分利用了相似文档之间的信息冗余性来改进现有的单文档自动摘要方法,该方法首先从文档集中找到与当前文档最相似的少数几篇文档,然后基于这些文档对当前文档中的句子进行全局重要性评价,进而从当前文档中挑选真正重要的句子生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果。
-
公开(公告)号:CN1399228A
公开(公告)日:2003-02-26
申请号:CN02129045.8
申请日:2002-08-29
Applicant: 北京北大方正技术研究院有限公司 , 北京大学计算机科学技术研究所
Abstract: 本发明属于智能信息处理技术,具体涉及一种对半结构化文档集进行文本挖掘的方法。本发明针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷,提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息,并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘,由于充分的利用了半结构化文档中的结构信息与链接信息,挖掘效果大大改进。本方法可广泛地应用于智能信息处理。
-
公开(公告)号:CN109614471A
公开(公告)日:2019-04-12
申请号:CN201811495625.4
申请日:2018-12-07
Applicant: 北京大学 , 智者四海(北京)技术有限公司
IPC: G06F16/332 , G06F17/27 , G06N3/04
Abstract: 本发明公布了一种基于生成式对抗网络的开放式问题自动生成方法,建立问题自动生成模型包括生成器和鉴别器,通过构建开放式问题自动生成数据集,采用增强学习的模型对抗训练方法,实现问题自动生成。本发明方法能够解决开放式问题生成中答案发散且差异较大,难以使用最大似然法高效拟合的问题,提升问题自动生成的效果。
-
公开(公告)号:CN105975466A
公开(公告)日:2016-09-28
申请号:CN201510742043.1
申请日:2015-11-04
IPC: G06F17/30
CPC classification number: G06F16/338 , G06F16/33
Abstract: 本发明公开了一种面向短新闻的机器写稿方法及装置,该方法通过利用优化算法智能选择不同的模板组合进行新闻生成,能够提高所生成新闻的生动性与灵活性。该方法的实现过程如下,基于输入的知识点与模板库进行候选模板检索;利用优化算法进行智能模板筛选,确定最终真正使用的模板;基于筛选得到的模板进行新闻文本生成;目前的中文新闻写稿系统主要基于人工定义的模板,然而通过向固定模板填充数据而生成的新闻形式比较单一,不够生动。本发明提出基于多样化模板集的智能模板筛选生成多样化的新闻文本,有效改善新闻自动生成的效果。
-
公开(公告)号:CN105955975A
公开(公告)日:2016-09-21
申请号:CN201610235634.4
申请日:2016-04-15
Applicant: 北京大学
CPC classification number: G06F16/35 , G06F16/313 , G06K9/6269
Abstract: 本发明涉及一种面向学术文献的知识推荐的方法,属于语言文字处理技术。为寻求有效的研究方法来解决研究工作中的问题,研究人员需要阅读大量的文献,深入了解领域内的学术知识与相关技术,通过思考、分析和大量的实验与尝试,提出并验证自己的想法。对于缺乏经验的研究人员,这项工作的难度更大。本发明提出构建基于学术概念间关系规约化的矩阵分解模型,为学术任务或者问题推荐学术方法,作为研究工作的参考。在传统矩阵分解模型的基础上,结合同类学术概念间的关系作为规约化条件,构建基于学术任务或者方法概念间关系规约化的矩阵分解模型MF‑TRR与MF‑MRR。面向学术文献的知识推荐致力于为研究人员的工作带来灵感,减轻研究工作负担,提高科研成果产量。
-
公开(公告)号:CN101458708B
公开(公告)日:2012-07-04
申请号:CN200810239256.2
申请日:2008-12-05
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种检索结果聚类方法及装置,用以解决按照现有技术提供的检索结果聚类方法使得用户难以按照聚类标签找到符合自己需求的检索结果的问题。其中,本发明公开的该方法包括步骤:从检索结果中选取规定数目的短语;针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。
-
-
-
-
-
-
-
-
-