-
公开(公告)号:CN115062603A
公开(公告)日:2022-09-16
申请号:CN202210557374.8
申请日:2022-05-20
Applicant: 中国科学院自动化研究所
IPC: G06F40/205 , G06F40/189 , G06F40/30 , G06F40/289 , G06F40/295 , G06K9/62
Abstract: 本发明涉及自然语言处理技术领域,提供一种对齐增强语义解析方法、装置和计算机程序产品,所述方法包括:预测知识问答任务中对应对齐关系的短语,并基于对应对齐关系的短语的类型生成对应的查询片段,其中,对齐关系包括短语和对应的查询片段;将序列化的对齐关系拼接至输入序列,并将输入序列输入编码器‑解码器解析模型的编码器模型,获取对齐的编码结果;将对齐的编码结果进行注意力操作并输入编码器‑解码器解析模型的解码器模型,解析并输出对齐关系对应的查询语句,其中,解码器模型是利用含噪对齐训练获得。本发明可实现较大粒度的建模对齐,且提高解析准确度及噪声对解析模型的鲁棒性。
-
公开(公告)号:CN113761875A
公开(公告)日:2021-12-07
申请号:CN202110827424.5
申请日:2021-07-21
Applicant: 中国科学院自动化研究所
IPC: G06F40/211 , G06F16/33 , G06K9/62 , G06N3/02
Abstract: 本发明提供一种事件抽取方法、装置、电子设备及存储介质,其中方法包括:获取待抽取文档;将所述待抽取文档输入至事件抽取模型,得到所述事件抽取模型输出的所述待抽取文档对应的预测结果;其中,所述预测结果包括多个预测事件,以及每一预测事件对应的事件元素;所述事件抽取模型用于基于所述待抽取文档中每一语句的上下文特征和事件元素,确定所述待抽取文档中事件之间的关系、角色之间的关系和事件到角色之间的关系,并确定所述预测结果。本发明提供的方法、装置、电子设备及存储介质,能够同时提取多个事件,并实现事件元素的准确分配,减小了事件抽取的误差,提高了事件抽取的准确性。
-
公开(公告)号:CN113742445A
公开(公告)日:2021-12-03
申请号:CN202110807246.X
申请日:2021-07-16
Applicant: 中国科学院自动化研究所
IPC: G06F16/33 , G06F16/35 , G06F40/247 , G06F40/30
Abstract: 本发明提供一种文本识别样本获取、文本识别方法及装置,所述获取方法包括:将初始文本样本输入至样本生成模型,得到样本生成模型输出的多个文本识别样本。由于样本生成模式是基于生成器和识别器进行对偶学习得到的,从而可以得到多个高质量的文本识别样本,且各文本识别样本以不同的语义方式表达两个事件之间的因果关系或非因果关系,进而将高质量的文本识别样本用于文本识别模型训练时,能够提高文本识别模型的识别精度。同时本发明在初始文本样本的基础上得到多个文本识别样本,扩大了样本的数量规模,进而在文本识别样本用于文本识别模型训练时,能够使得文本识别模型能够准确学习文本识别样本中事件的因果语义关系,提高模型的识别精度。
-
公开(公告)号:CN112101578B
公开(公告)日:2021-02-23
申请号:CN202011285430.4
申请日:2020-11-17
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于数据识别领域,具体涉及了一种基于联邦学习的分布式语言关系识别方法、系统和装置,旨在解决多个参与方在不共享数据的基础上难以联合建模的问题。本发明包括:各个本地平台获取待识别数据和带标签的本地训练数据,在根据本地训练数据训练本地分类器模型,用训练好的分类器模型集成为全局分类器模型,再通过全局分类器模型初始化本地分类器模型,用初始化后的本地分类模型识别待识别的数据获得语言关系预测结果。本发明实现了在不共享数据的基础上将本地平台结合其它平台进行数据使用和机器学习建模,提高了自然语言识别模型训练的协作性,解决了数据孤岛的问题,降低各个平台训练模型所需的训练数据总量和要求。
-
公开(公告)号:CN112101578A
公开(公告)日:2020-12-18
申请号:CN202011285430.4
申请日:2020-11-17
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于数据识别领域,具体涉及了一种基于联邦学习的分布式语言关系识别方法、系统和装置,旨在解决多个参与方在不共享数据的基础上难以联合建模的问题。本发明包括:各个本地平台获取待识别数据和带标签的本地训练数据,在根据本地训练数据训练本地分类器模型,用训练好的分类器模型集成为全局分类器模型,再通过全局分类器模型初始化本地分类器模型,用初始化后的本地分类模型识别待识别的数据获得语言关系预测结果。本发明实现了在不共享数据的基础上将本地平台结合其它平台进行数据使用和机器学习建模,提高了自然语言识别模型训练的协作性,解决了数据孤岛的问题,降低各个平台训练模型所需的训练数据总量和要求。
-
公开(公告)号:CN111881688A
公开(公告)日:2020-11-03
申请号:CN202010801363.0
申请日:2020-08-11
Applicant: 中国科学院自动化研究所
IPC: G06F40/295 , G06K9/62 , G06N3/04
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于屏蔽泛化机制的事件因果关系识别方法、系统、装置,旨在解决模型训练困难以及事件因果关系识别鲁棒性较差的问题。本发明方法包括:获取待识别事件因果关系的文本,作为输入文本;通过BERT模型提取输入文本与因果事件的实体信息对应的三元组集合融合后的特征,作为第一特征;通过BERT模型提取输入文本中未屏蔽信息的特征,作为第二特征;将第一特征、第二特征进行融合,将融合后的特征作为第三特征;基于第三特征,通过预构建的分类模型获取输入文本中事件因果关系的识别结果。本发明简化了模型训练的难度,并提高了事件因果关系识别的鲁棒性。
-
公开(公告)号:CN111737552A
公开(公告)日:2020-10-02
申请号:CN202010500623.0
申请日:2020-06-04
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
IPC: G06F16/953 , G06F16/36 , G06F40/211 , G06N20/00 , G06N3/04
Abstract: 本申请涉及计算机技术领域,提供一种训练信息抽取模型和获取知识图谱的方法、装置和设备,用以提高信息抽取模型的鲁棒性。其中方法包括:对初始的第一信息抽取模型进行训练,基于对噪音样本的预测结果对第一信息抽取模型进行更新,得到第一中间态模型;基于第一中间态模型对噪音样本的预测结果与初始的第二信息抽取模型对非噪音样本的预测结果的差异对第一信息抽取模型进行更新,得到第二中间态模型;基于第二中间态模型对非噪音样本的预测结果对第二中间态模型进行更新,得到参考模型;基于预设平滑系数对参考模型的参数进行调整,得到目标信息抽取模型。本申请基于元学习的方式对模型参数进行更新,更新后的模型更鲁棒,构建的知识图谱更准确。
-
公开(公告)号:CN110442693A
公开(公告)日:2019-11-12
申请号:CN201910685616.X
申请日:2019-07-27
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
IPC: G06F16/332 , G06F17/27
Abstract: 本发明提供了一种基于人工智能的回复消息生成方法、装置、服务器及介质,属于人工智能技术领域。方法包括:获取目标用户的会话消息;将会话消息输入多级编码器中,多级编码器包括多个级联的编码器;根据多个编码器的级联关系,控制每个编码器分别根据每个编码器对应的词汇表以及上一级编码器的状态信息生成会话消息的编码序列;根据多级解码器包括的多个解码器的级联关系,控制每个解码器分别根据多个编码器生成的编码序列、上级解码器生成的第一解码序列以及对应的编码器的状态信息生成第二解码序列,多个解码器与多个编码器一一对应;根据多级解码器生成的解码序列,输出会话消息的回复消息。使得生成的回复消息更加顺畅流利,质量较高。
-
公开(公告)号:CN103678703A
公开(公告)日:2014-03-26
申请号:CN201310745097.4
申请日:2013-12-30
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/30734 , G06F17/278
Abstract: 本发明公开了一种借助图随机游走的开放类别命名实体抽取方法,该方法包括步骤:步骤1,分析种子在语料中的上下文得到模板;步骤2,使用模板从语料抽取候选实体;步骤3,根据种子实体、模板和候选实体之间的关系构造图;步骤4,在图上使用随机游走算法计算候选实体的置信度。该方法能够克服模板质量不同对候选实体置信度计算带来的不良影响,有效地提高了开放类别命名实体抽取的准确率。经过实验证明,抽取结果的平均准确率提高了4.36%。
-
-
-
-
-
-
-
-