-
公开(公告)号:CN101231641B
公开(公告)日:2010-05-19
申请号:CN200710062944.1
申请日:2007-01-22
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种自动分析互联网上热点主题传播过程的方法及系统,属于智能信息处理技术。由于互联网上文本信息的不断增长,自动从海量文本中检测与分析热点或敏感主题是文本挖掘和信息检索领域的一个重要课题,具有重大的实用价值。本发明利用自然语言处理方法,自动分析给定热点或敏感主题中的文档信息传播过程:对主题中的文档按照时间排序之后,从第一篇文档开始对当前文档利用模式匹配方法搜索其转载出处,如果未发现其转载出处,则进一步利用文档相似度比较方法判断其转载出处,同时获取对应的源文档。最后将转载关系以图形化的方式直观地呈现给用户。本方法可广泛应用于互联网智能信息处理、舆情分析与监控等。
-
公开(公告)号:CN100543735C
公开(公告)日:2009-09-23
申请号:CN200510117412.4
申请日:2005-10-31
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
Abstract: 本发明公开了一种基于文档结构的文档相似性度量方法,涉及一种自然语言的处理方法。针对度量方法中丢失了词语在文档各个部分的分布信息,本发明提出的方法包括以下步骤:(1)对于需要比较的两个文档X和Y,分别使用文档结构分析方法找出每个文档的子主题序列;(2)利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值;(3)对步骤(1)及步骤(2)得到的子主题序列及子主题之间的相似度值,建立一个带权二部图G={X,Y,E};(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。本发明提出的方法,提高了文档相似性判断的准确度。
-
公开(公告)号:CN100461177C
公开(公告)日:2009-02-11
申请号:CN200610007219.X
申请日:2006-02-14
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
IPC: G06F17/30
Abstract: 本发明涉及一种自动检测新闻事件的方法,属于智能信息处理技术。现有技术中,事件检测技术仅仅考虑在固定的小数据集合上的错检率和漏检率,常出现新闻事件被误分为多个小事件的情况,并且事件检测的精确度不高,常出现检测到的事件内容过于宽泛的情况。本发明所述的方法针对持续新闻流事件检测的实际应用,通过引入事件排序,事件合并和调整,新闻报道淘汰,以及新闻事件描述等步骤,提出了一个实用的新闻事件检测方法。采用本发明所述的方法,能够明显提高新闻事件的检测效果,大大增强其实用性。本方法可广泛地应用于智能信息处理。
-
公开(公告)号:CN101315625A
公开(公告)日:2008-12-03
申请号:CN200710099802.2
申请日:2007-05-30
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
Abstract: 本发明公开了一种词汇语义褒贬获得方法、系统及装置,用以提高确定词汇语义褒贬的准确率。在本发明中,通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。
-
公开(公告)号:CN101231641A
公开(公告)日:2008-07-30
申请号:CN200710062944.1
申请日:2007-01-22
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种自动分析互联网上热点主题传播过程的方法及系统,属于智能信息处理技术。由于互联网上文本信息的不断增长,自动从海量文本中检测与分析热点或敏感主题是文本挖掘和信息检索领域的一个重要课题,具有重大的实用价值。本发明利用自然语言处理方法,自动分析给定热点或敏感主题中的文档信息传播过程:对主题中的文档按照时间排序之后,从第一篇文档开始对当前文档利用模式匹配方法搜索其转载出处,如果未发现其转载出处,则进一步利用文档相似度比较方法判断其转载出处,同时获取对应的源文档。最后将转载关系以图形化的方式直观地呈现给用户。本方法可广泛应用于互联网智能信息处理、舆情分析与监控等。
-
公开(公告)号:CN101231640A
公开(公告)日:2008-07-30
申请号:CN200710062943.7
申请日:2007-01-22
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。
-
公开(公告)号:CN1828610A
公开(公告)日:2006-09-06
申请号:CN200610072588.7
申请日:2006-04-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
Abstract: 本发明涉及一种改进的基于文档子主题结构的文档相似性度量方法,属于语言的计算机处理和信息检索技术领域。针对传统相似性度量方法丢失了词语在文档各个部分的分布信息这个缺点以及利用最优匹配的基于文档子主题结构的方法只允许子主题之间一对一匹配的缺点。本发明所述的方法利用文档结构分析方法分别得到所述两个文档A和B的子主题结构,然后通过构建一个带权二部图G并根据求解线性规划的方法求解其货物运输距离EMD(A,B),最后根据1-EMD(A,B)得到文档A和B之间的相似度值。本发明允许文档子主题之间在一定约束条件下进行多对多匹配,从而提高了文档相似性判断的准确度,同时,该方法具有更好的鲁棒性。
-
公开(公告)号:CN1822000A
公开(公告)日:2006-08-23
申请号:CN200610007219.X
申请日:2006-02-14
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
IPC: G06F17/30
Abstract: 本发明涉及一种自动检测新闻事件的方法,属于智能信息处理技术。现有技术中,事件检测技术仅仅考虑在固定的小数据集合上的错检率和漏检率,常出现新闻事件被误分为多个小事件的情况,并且事件检测的精确度不高,常出现检测到的事件内容过于宽泛的情况。本发明所述的方法针对持续新闻流事件检测的实际应用,通过引入事件排序,事件合并和调整,新闻报道淘汰,以及新闻事件描述等步骤,提出了一个实用的新闻事件检测方法。采用本发明所述的方法,能够明显提高新闻事件的检测效果,大大增强其实用性。本方法可广泛地应用于智能信息处理。
-
公开(公告)号:CN1180377C
公开(公告)日:2004-12-15
申请号:CN02129045.8
申请日:2002-08-29
Applicant: 北京北大方正技术研究院有限公司 , 北京大学计算机科学技术研究所
IPC: G06N7/00
Abstract: 本发明属于智能信息处理技术,具体涉及一种对半结构化文档集进行文本挖掘的方法。本发明针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷,提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息,并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘,由于充分的利用了半结构化文档中的结构信息与链接信息,挖掘效果大大改进。本方法可广泛地应用于智能信息处理。
-
公开(公告)号:CN109614471B
公开(公告)日:2021-07-02
申请号:CN201811495625.4
申请日:2018-12-07
Applicant: 北京大学 , 智者四海(北京)技术有限公司
IPC: G06F16/332 , G06F40/289 , G06N3/04
Abstract: 本发明公布了一种基于生成式对抗网络的开放式问题自动生成方法,建立问题自动生成模型包括生成器和鉴别器,通过构建开放式问题自动生成数据集,采用增强学习的模型对抗训练方法,实现问题自动生成。本发明方法能够解决开放式问题生成中答案发散且差异较大,难以使用最大似然法高效拟合的问题,提升问题自动生成的效果。
-
-
-
-
-
-
-
-
-