-
公开(公告)号:CN111078836B
公开(公告)日:2023-08-08
申请号:CN201911259849.X
申请日:2019-12-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于外部知识增强的机器阅读理解方法、系统、装置,旨在解决现有机器阅读理解方法未利用三元组间的图结构信息,导致答案预测准确率较低的问题。本系统方法包括生成问题及原文文本中各实体的上下文表示;基于外部知识库,获取问题及原文文本中各实体的三元组集合及原文文本中各实体相邻实体的三元组集合;并基于三元组集合,通过外部知识图谱获取各实体的知识子图;通过图注意力网络更新融合知识子图,获取知识表示;通过哨兵机制将上下文表示和知识表示进行拼接,通过多层感知器和softmax分类器获取待回答问题的答案。本发明通过利用三元组之间的图结构信息,提高了答案预测的准确率。
-
公开(公告)号:CN115796168A
公开(公告)日:2023-03-14
申请号:CN202211408339.6
申请日:2022-11-10
Applicant: 中国科学院自动化研究所
IPC: G06F40/284 , G06F40/30
Abstract: 本发明实施例提供一种文本解释方法、装置、设备和存储介质,该方法包括:根据待解释的样本文本,生成初始词单元集合,初始词单元集合中包括多个词单元;基于初始词单元集合中各个词单元间的交互分数,生成待解释的样本文本的目标多层词单元集合;交互分数用于量化词单元之间的相互作用对词单元解释结果的影响程度;基于目标多层词单元集合,对样本文本进行解释。本发明实施例的方法通过待解释的样本文本生成初始词单元集合,进而基于初始词单元集合中各个词单元间的交互分数进行词单元的合并,可有效捕捉远距离词单元间的组合语义并对样本文本进行层级解释,使得解释结果准确地反映待解释模型的预测过程,实现了对文本的准确解释。
-
公开(公告)号:CN115687613A
公开(公告)日:2023-02-03
申请号:CN202211204909.X
申请日:2022-09-29
Applicant: 中国科学院自动化研究所 , 国网天津市电力公司 , 国家电网有限公司
IPC: G06F16/35 , G06F16/335 , G06F40/216
Abstract: 本发明提供一种基于开放式规则的前提关系生成方法、装置和电子设备。该方法包括:基于预设采样方法,根据具有多个提示引导信息的假设关系生成对应各所述提示引导信息的实例簇,所述实例簇包括实例;基于支持束搜索方法,通过所述实例簇生成对应所述实例簇的候选前提关系集合,所述候选前提关系集合包括候选前提关系。本方法能够获得多样性的前提关系且获得的前提关系质量较高。
-
公开(公告)号:CN114925164A
公开(公告)日:2022-08-19
申请号:CN202210476432.4
申请日:2022-04-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种知识结构持续扩展方法、装置、设备和介质,该方法包括:查找出待扩展知识节点在现有知识体系中的父节点;在父节点为非叶子节点的情况下,基于多节点标记方法在现有知识体系中查找出待扩展知识节点所有的孩子节点;基于父节点及所有的孩子节点,将待扩展知识节点插入至现有知识体系中,由此在待扩展知识节点为非叶子节点时,通过进行父亲节点和孩子节点的寻找,实现高效、精确地将待扩展知识节点插入至现有知识体系中。
-
公开(公告)号:CN110209816B
公开(公告)日:2021-06-08
申请号:CN201910440322.0
申请日:2019-05-24
Applicant: 中国科学院自动化研究所
IPC: G06F16/35 , G06F40/126
Abstract: 本发明属于自然语言处理领域,具体涉及了一种基于对抗模仿学习的事件识别及分类方法、系统、装置,旨在解决传统事件识别及分类方法语言处理工具存在错误累计导致事件识别准确率低的问题。本发明方法包括:获取不含标准标注信息的句子并输入;将每一个词特征化后的词向量集构成词向量特征矩阵;采用向量编码器对词向量特征矩阵进行编码,并采用注意力机制为每一个词分配权重,获得知识向量;采用事件类型分类器依据知识向量计算输入信息属于各事件类别的概率;概率值最高的事件类别作为输入信息的事件类别。本发明不依赖自然语言处理工具对信息进行抽取,避免错误积累,提高了事件识别的准确率。
-
公开(公告)号:CN112101484B
公开(公告)日:2021-02-12
申请号:CN202011244409.X
申请日:2020-11-10
Applicant: 中国科学院自动化研究所
IPC: G06K9/62
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于知识巩固的增量事件识别方法、系统、装置,旨在解决现有的事件识别方法在微调模型后识别新类别的事件时,容易出现灾难遗忘,导致识别精度较低的问题。本系统方法包括获取待识别事件的文本,作为输入文本;通过预训练的语言模型提取输入文本中各单词的上下文特征;基于所述上下文特征,通过多层感知器模型得到待识别事件的类别。本发明提高了事件识别的精度。
-
公开(公告)号:CN109783812B
公开(公告)日:2020-08-11
申请号:CN201811621018.8
申请日:2018-12-28
Applicant: 中国科学院自动化研究所
IPC: G06F40/295 , G06F40/289
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于自注意力机制的中文命名实体识别方法、系统、装置,旨在为了解决解决中文命名实体识别的准确度不能满足需求的问题。本发明方法包括:提取待识别语句的私有特征h1、共有特征s1;基于自注意力机制分别计算共有特征s1、私有特征h1对应的长距离依赖关系,获取基于依赖关系的私有特征h′1、基于依赖关系的共有特征s′1;通过任务分类器判断所述待识别语句是否为中文命名实体识别数据时将h′1与s′1进行拼接,获取融合后的中文命名实体识别数据特征h″1,采用条件随即场对融合之后的特征h″1进行标签预测。本发明有效地提高了中文命名实体识别的准确度。
-
公开(公告)号:CN108345583A
公开(公告)日:2018-07-31
申请号:CN201711463578.0
申请日:2017-12-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种基于多语注意力机制的事件识别及分类方法及装置,旨在为了解决单语特征识别效果不能满足需求的问题,本发明的方法包括:将仅标注单语事件信息的数据映射为多语平行数据;将所述多语平行数据进行词汇级别对齐,通过多语对齐关系得到同一事件在多种不同语言中的一致性表示;基于单语注意力模型获取多语一致性信息;基于多语注意力模型获取多语互补性信息;基于所述多语一致性信息和所述多语互补性信息进行联合推理,通过非线性神经网络判别模型输出最终的识别结果。本发明可以提高事件的识别效果。
-
公开(公告)号:CN104049755B
公开(公告)日:2017-01-18
申请号:CN201410271542.2
申请日:2014-06-18
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
IPC: G06F3/01
CPC classification number: G06N3/08 , G06F17/27 , G06N3/04 , G06N3/0454
Abstract: 本发明实施例公开了一种信息处理方法及装置;所述方法包括:利用评价对象种子、评价词种子以及评价关系种子对深度神经网络进行训练;在第一输入层对候选评价对象、候选评价词以及候选评价关系对应的向量进行连接得到第一输入向量,在第一隐藏层对所述第一输入向量进行压缩得到第一中间向量,在第一输出层将所述第一中间向量进行解码得到第一输出向量;确定解码错误值小于解码错误值阈值的第一输出向量,并将所确定的第一输出向量对应的候选评价对象、候选评价词以及候选评价关系确定为第一观点信息。采用本发明实施例的技术方案,能够提升从评价文本中提取观点信息的精度。
-
公开(公告)号:CN106156082A
公开(公告)日:2016-11-23
申请号:CN201510150011.2
申请日:2015-03-31
Applicant: 华为技术有限公司 , 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明公开了一种本体对齐方法及装置,方法为,结合待对齐本体名称,待对齐本体的属性信息,待对齐本体的类别标签,分别计算待对齐本体与每一个候选本体之间的相似度;根据计算得到的相似度,获取每一个查找到的候选本体的综合评分;从所有综合评分中选取综合评分大于或等于预设综合评分阈值,且综合评分最高的候选本体;将待对齐本体与选取的候选本体进行对齐。采用本发明技术方案,在对本体进行对齐的过程中,除考虑本体名称之外,还综合考虑本体的属性信息和类别标签,避免了仅根据本体名称进行本体对齐所造成的对齐结果不准确的问题,保证了本体对齐的准确性,降低了本体对齐的错误率。
-
-
-
-
-
-
-
-
-