Patent search ap:("用友网络科技股份有限公司" OR "北京大学") AND inv:"万小军" Page 2

11.

发明公开
为文档集自动生成摘要的方法及装置失效

公开(公告)号：CN101446940A

公开(公告)日：2009-06-03

申请号：CN200710187480.7

申请日：2007-11-27

Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务技术有限公司

Inventor： 万小军 , 余军 , 杨建武 , 吴於茜

IPC: G06F17/27

Abstract: 本发明公开了一种为文档集自动生成摘要的方法及装置，涉及语言文字处理领域，为了解决现有技术为文档集生成摘要时，需要对文档集中全部文档的每个句子重新计算权重，造成生成摘要的速度慢、效率低的问题而发明；其包括如下步骤：计算所述新文档中每个句子的权重；更新所述文档集已有摘要中句子的权重；获得新文档和文档集已有摘要的所有非重复句子的权重排序；生成所述文档集的新摘要。本发明适用于多文档进行自动生成摘要。

12.

发明授权
一种基于句子关系图的多文档摘要方法失效转让

公开(公告)号：CN100435145C

公开(公告)日：2008-11-19

申请号：CN200610072586.8

申请日：2006-04-13

Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司

Inventor： 万小军 , 杨建武 , 吴於茜 , 陈晓鸥

IPC: G06F17/30 , G06F17/27

Abstract: 本发明涉及一种基于句子关系图的多文档摘要方法，属于语言文字处理技术领域。现有的多文档摘要方法中，没有采用有效的措施保持摘要中句子的新颖性，也没有区分句子之间不同类型的关系，只简单利用了句子的自身内容来计算句子之间的关系，没有考虑句子之间可扩散的特性。本发明所述的方法提出了一种完整的基于句子关系图的多文档摘要架构，利用句子关系的扩散特性计算句子之间的真实语义关系，同时，区别对待了文档内句子关系和文档间句子关系这两种不同的关系。采用本发明所述的方法，扩展了基于图结构的摘要方法，在抽取句子的过程中既考虑句子的信息丰富程度，又考虑其新颖程度，在实际评测中取得了很好的效果。

13.

发明公开
自动生成采访稿的采访智能机器人装置及智能采访方法有权

公开(公告)号：CN109918650A

公开(公告)日：2019-06-21

申请号：CN201910109002.7

申请日：2019-02-03

Applicant: 北京大学 , 广东智媒云图科技股份有限公司

Inventor： 于智薇 , 万小军 , 黄治军 , 金函琪 , 吕旺英

IPC: G06F17/27 , G06F16/332 , G06F16/35 , G06N3/04 , G06N3/08 , G10L13/04 , G10L15/26

Abstract: 本发明公布了一种自动生成采访稿的采访智能机器人装置及自动生成采访稿的智能采访方法，采访智能机器人装置包括采访模板、知识库、回答判别模块、关键词抽取模块、回答追问模块、语音合成模块、语音识别模块、文字输入模块、采访稿一键生成模块、情绪判别及调整模块、语速选择模块、检索模块；使用构建的采访模板结合检索的方式，根据用户回答问题的情况，按照不同逻辑支线进行采访，并且从用户回答中提取关键词信息，检索相应内容进行追问；通过提取关键词及采访模板匹配的方式，自动生成采访稿。本发明能够解决采访过程时聊天轮次少，聊天逻辑架构不清晰，语音识别不准确等问题。

14.

发明公开
一种基于集成学习和词句综合信息的文本蕴涵识别方法有权

公开(公告)号：CN107133212A

公开(公告)日：2017-09-05

申请号：CN201710311135.3

申请日：2017-05-05

Applicant: 北京大学

Inventor： 魏薇 , 万小军

IPC: G06F17/27

Abstract: 本发明公开了一种基于集成学习和词句综合信息的文本蕴涵识别方法，涉及语言文字处理领域。目前的中文文本蕴涵识别系统主要基于词汇特征、句法特征、知识库、人工定义的规则等，然而词汇、句法信息作为独立特征训练出的模型对数据的拟合度过低，规则、知识库覆盖范围有限。本发明提出加入综合词汇和句法信息的特征来训练分类器，并利用集成学习技术，有效提高文本蕴涵识别的准确性。其包括如下步骤：数据预处理；一致性转化；特征提取；集成学习训练；投票决策分类。本发明适用于各领域句子间蕴涵关系的识别。

15.

发明公开
基于微博的娱乐新闻自动构建技术与系统无效

公开(公告)号：CN107102976A

公开(公告)日：2017-08-29

申请号：CN201710177559.5

申请日：2017-03-23

Applicant: 北京大学

Inventor： 王天明 , 万小军

IPC: G06F17/24 , G06K9/62

Abstract: 本发明公开了一种基于微博的娱乐新闻自动构建技术与系统，涉及语言文字处理领域。目前社交媒体在互联网上十分流行，有大量的娱乐新闻从微博中诞生。基于微博的娱乐新闻构建主要分为两个阶段。第一阶段为对微博是否具有新闻价值进行判别，筛选出内容有意义、公众关注度高或者引发热烈讨论的微博，主要通过对微博提取特征然后使用随机森林进行分类预测来完成；第二阶段新闻生成阶段，对前一阶段过滤后得到的微博使用模板为主的方式构建新闻。在收集大量的微博数据并标注后，本系统通过以上两个阶段即可完成自动的娱乐新闻构建，既能生成丰富的用户关注的新闻，又能有效节省人力物力。

16.

发明授权
一种新闻评论页面的爬取方法及系统失效转让

公开(公告)号：CN102087648B

公开(公告)日：2013-06-19

申请号：CN200910242055.2

申请日：2009-12-03

Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司

Inventor： 严华梁 , 刘伟 , 杨建武 , 万小军 , 肖建国

IPC: G06F17/30

Abstract: 本发明公开了一种新闻评论页面的爬取方法及系统，属于信息检索和数据集成技术领域。该方法及系统首先从新闻网站起始页面出发，对页面进行广度遍历，在遍历过程中获取满足深度限制的页面信息；然后计算页面的特征值，根据特征值和预设阈值之间的大小关系，从页面中识别出新闻评论页面；最后获取新闻评论页面的翻页链接，并根据翻页链接获取其他新闻评论页面。本发明所述方法及系统，能够从新闻网站的网页中自动爬取出新闻评论页面，而且爬取的速度快，爬取的新闻评论页面全面。

17.

发明授权
一种从网页中抽取信息的方法及装置失效转让

公开(公告)号：CN101996190B

公开(公告)日：2012-08-08

申请号：CN200910090455.6

申请日：2009-08-12

Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司

Inventor： 刘伟 , 万小军 , 杨建武 , 肖建国

IPC: G06F17/30

Abstract: 本发明公开了一种从网页中抽取信息的方法及装置，用以解决现有技术中不能从非结构化格式的网页中获取准确的信息问题。该方法包括：查找网页中的每种信息属性，获取每种信息属性对应的信息属性候选集，根据保存的信息属性间的位置关系与布局关系概率的对应关系，查找至少两种信息属性间的至少一个最大布局关系概率，并确定查找到的最大布局关系概率对应的位置关系，从所述至少两种信息属性对应的信息属性候选集中，抽取满足所述位置关系的信息属性组合。

18.

发明公开
检索结果聚类方法及装置失效转让

公开(公告)号：CN102122296A

公开(公告)日：2011-07-13

申请号：CN201110048758.9

申请日：2008-12-05

Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司

Inventor： 骆雄武 , 万小军 , 杨建武 , 吴於茜

IPC: G06F17/30

Abstract: 本发明公开了一种检索结果聚类方法及装置，用以解决按照现有技术提供的检索结果聚类方法使得用户难以按照聚类标签找到符合自己需求的检索结果的问题。其中，本发明公开的该方法包括步骤：从检索结果中选取规定数目的短语；针对选取到的每个短语，对检索结果中包含该短语的检索结果进行聚类，并将该短语作为该聚类的标签。

19.

发明公开
一种从网页中抽取评论内容的方法和装置失效转让

公开(公告)号：CN102117289A

公开(公告)日：2011-07-06

申请号：CN200910244539.0

申请日：2009-12-30

Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司

Inventor： 刘伟 , 严华梁 , 万小军 , 杨建武 , 肖建国

IPC: G06F17/30

Abstract: 本发明公开了一种从网页中抽取评论内容的方法和装置，涉及信息处理技术，通过建立评论页面的DOM树，并选择符合评论区抽取规则的子树抽取出评论区，再利用评论记录间的结构相似性，抽取出评论区中的评论记录，利用包含评论内容的子树的差异性，选择标准差最大的子树作为包含评论内容的子树，最后选取稳定性最小的一条路径中，稳定性差绝对值最大的相邻节点中的孩子节点作为根节点，这个子树就是要抽取的评论内容。由于利用了评论内容的无结构特性来进行抽取，而不是根据网页的模板进行抽取，所以网页的不同不影响抽取的准确性，并且不需要根据网页的模板进行复杂的配置，并通过计算去除了噪声信息，提高了从网页中抽取评论内容的效率和准确性。

20.

发明公开
中文评论褒贬分析方法及装置无效

公开(公告)号：CN101751431A

公开(公告)日：2010-06-23

申请号：CN200810239685.X

申请日：2008-12-15

Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司

Inventor： 万小军

IPC: G06F17/30 , G06F17/28

Abstract: 本发明公开了一种中文评论褒贬分析方法及装置，用以解决现有技术中采用基于语义计算的方法对中文评论进行分析时，分析结果的准确性不佳的问题。该方法将输入的中文评论翻译为对应的英文评论；并对翻译得到的英文评论执行拆分处理，以及将拆分处理结果与英文褒贬词汇库中的对应英文语义资源进行匹配，执行褒贬分析；输出分析结果作为对所述中文评论进行褒贬分析的褒贬倾向值。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification