一种面向在线百科的实体属性抽取方法及系统

    公开(公告)号:CN103853823A

    公开(公告)日:2014-06-11

    申请号:CN201410065743.7

    申请日:2014-02-26

    CPC classification number: G06F17/30705

    Abstract: 本发明提供一种面向在线百科的实体属性抽取方法及系统,该方法包括:在待抽取的在线百科网页文本集合T中选择一个页面,抽取该页面的实体属性表达规则,得到当前规则集合。该方法还包括使用当前规则集合对所述待抽取的在线百科网页文本集合T进行实体属性抽取,并且根据抽取得到的实体属性抽取T的实体属性表达规则,用抽取得到的规则集合作为当前规则集合并重复这一过程k次,得到最终规则集合。使用所述最终规则集合对T进行实体属性抽取。本发明提供的实体属性抽取方法能够适应文本结构的变化,适用于各种在线百科,具有召回率高并且准确率高的效果。

    面向开放网络知识库的实体间关系推断方法及系统

    公开(公告)号:CN103824115A

    公开(公告)日:2014-05-28

    申请号:CN201410072412.6

    申请日:2014-02-28

    Abstract: 本发明提供一种面向开放网络知识库的实体间关系推断方法。该方法包括根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;根据待推断的目标关系从所述知识库中找出的所有存在所述目标关系的实体对;以及综合考虑所找出的各实体对间的关系路径信息以及各实体的属性信息来从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体。该方法利用知识库中已有的实体关系和实体的属性自动对实体间的关系进行推理,有效改善了推断效果,实现了对知识库中关系的丰富与完善。

    一种基于表示向量的作品标签推荐方法和系统

    公开(公告)号:CN107391577A

    公开(公告)日:2017-11-24

    申请号:CN201710469315.4

    申请日:2017-06-20

    Abstract: 本发明涉及一种基于表示向量的标签推荐方法和系统,其特征在于,包括:获取多个作品,根据每个作品对应的标签、关系及对象,构建多个包含作品和标签的二元组信息和包含作品、关系及对象的三元组信息,根据二元组信息和三元组信息生成训练数据集;通过对训练数据集进行表示学习,分别得到各个作品的作品表示向量和各类标签的标签表示向量;通过计算各个作品表示向量和各类标签表示向量之间的距离,从各类标签中筛选出各个作品的推荐标签。本发明在学习表示向量的过程中,本发明同时考虑作品标签对二元组信息和作品的三元组信息。通过融入更多信息,使得学到的表示向量能够更准确地反映作品和标签的语义,从而更好地支持标签推荐这一任务。

    面向在线百科的知识库自动更新方法及系统

    公开(公告)号:CN103823879B

    公开(公告)日:2017-06-16

    申请号:CN201410072608.5

    申请日:2014-02-28

    Abstract: 本发明提供一种面向在线百科的知识库自动更新的方法,该方法实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;从所获取的知识语料识别知识的变化,以及将基于所识别的知识的变化来更新知识库。该方法实时感知更新的知识,自动判断更新知识在知识库中所处的位置,以及将更新的知识,自动合并添加到知识库中,可避免知识库的滞后性并满足用户对知识库时新性的要求。

    一种面向在线百科的事件识别方法和事件关系抽取方法

    公开(公告)号:CN103823868B

    公开(公告)日:2017-05-03

    申请号:CN201410066711.9

    申请日:2014-02-26

    Abstract: 本发明提供一种面向在线百科的事件识别方法和事件关系抽取方法。所述事件识别方法包括:从在线百科的分类体系中得到事件类分类标签;所述事件类分类标签表示该分类标签下的词条与一个或多个事件有关。以及对于所述在线百科中的词条,根据其所有分类标签中属于所述事件类分类标签的分类标签所占比率,判断所述词条是否是事件类词条。本发明能够快速且准确地识别出事件类词条,并且能够在事件识别的基础上进行事件关系的抽取,适用于对事件进行预测和溯源。

    一种面向开放文本的领域概念抽取方法

    公开(公告)号:CN105677640A

    公开(公告)日:2016-06-15

    申请号:CN201610011936.3

    申请日:2016-01-08

    CPC classification number: G06F17/2765 G06N5/022

    Abstract: 本发明提供一种面向开放文本的领域概念抽取方法,包括:1)遍历开放文本集合,从每一篇开放文本中提取候选领域概念;对于每一候选领域概念,利用该候选领域概念的短语拆分结果、上下文信息和百科分类信息得到该候选领域概念所关联的词向量,将该词向量中的所有的词分别作为该候选领域概念所关联的领域标签;3)用步骤1)得出的所有候选领域概念构建候选领域概念集合A,用步骤2)得出的所有领域标签构建领域标签集合B;利用HITS算法进行迭代计算,得出各个候选领域概念的领域相关度;4)利用各个候选领域概念的所述领域相关度进行领域概念的判断。本发明能够提高准确率和召回率,能够更好地识别出那些重要的低频概念。

Patent Agency Ranking