-
公开(公告)号:CN106021224B
公开(公告)日:2019-03-15
申请号:CN201610317745.X
申请日:2016-05-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种双语篇章标注方法,该方法包括:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。本发明能够对双语平行句子进行较高一致性的篇章分析。在中英语言对上,经过标注实验的验证:相对于已有的单语篇章分析方法,本发明方法能分析得到一致性程度更高的篇章分析结果,从篇章的切分信息,到篇章的结构信息都有较高的一致性提升。
-
公开(公告)号:CN108268616A
公开(公告)日:2018-07-10
申请号:CN201810009140.3
申请日:2018-01-04
Applicant: 中国科学院自动化研究所 , 出门问问信息科技有限公司
Abstract: 本发明属于人机对话技术领域,具体涉及一种融合规则信息的可控制性对话管理扩展方法,旨在解决数据驱动的对话系统通过重新构建交互环境的方式进行扩展时成本高、效率低下的问题,本方法包括:S1,基于交互数据,确定需要扩充的新用户意图,并对原语言理解模块进行扩展;S2,基于新用户意图,构建该新用户意图对应的新对话规则;S3,基于交互数据、原对话管理模块的对话策略、新对话规则,构建新对话管理模块映射空间所需满足的约束;S4,基于S3中得到的新对话管理模块映射空间所需满足的约束,对原对话管理模块进行扩展,生成新对话管理模块。本发明可以对数据驱动的对话系统根据用户反馈进行快速扩展、高效迭代。
-
公开(公告)号:CN106997387A
公开(公告)日:2017-08-01
申请号:CN201710195587.X
申请日:2017-03-28
Applicant: 中国科学院自动化研究所
CPC classification number: G06F16/345 , G06K9/00744 , G06K9/6201
Abstract: 本发明提供了一种基于文本‑图像匹配的多模态自动文摘方法,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本‑图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。通过训练文本‑图像匹配模型,将图像或视频中的信息利用文本‑图像匹配模型找到对应语义的文本,实现了同时处理文本、图像和视频信息进行文本摘要,使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。
-
公开(公告)号:CN106844352A
公开(公告)日:2017-06-13
申请号:CN201611209226.8
申请日:2016-12-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于神经机器翻译系统的单词预测方法及系统,所述单词预测方法包括:对平行语料进行训练,从训练结果中抽取,获得短语翻译表;对任意平行句对中的源语言句子进行匹配搜索,确定源语言句子中包含的全部源语言短语;从短语翻译表中查找各源语言短语分别对应的目标短语翻译候选集;根据目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定目标单词集中各目标单词的鼓励值;根据各目标单词的鼓励值,获得各目标单词的预测概率。通过引入短语翻译表获得目标单词的鼓励值,并添加到神经翻译模型中,从而可提高目标单词的预测概率。
-
公开(公告)号:CN114139556B
公开(公告)日:2025-03-21
申请号:CN202111271484.X
申请日:2021-10-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种多语言翻译方法、装置、电子设备及存储介质,方法包括:获取训练数据和源语言的文本;其中,训练数据包括源语言到多种目标语言的双语平行句对和多语言平行句对;对源语言的文本进行编码,得到源语言的文本对应的特征向量;其中,特征向量与目标语言无关;基于特征向量和多种目标语言已生成的译文,确定多种目标语言的当前词的最终表示;基于语言独立的柱搜索算法及多种目标语言的当前词的最终表示,对多种目标语言的已生成最优候选译文进行扩展,得到多种目标语言的目标译文。本发明提供的方法,能够利用多种目标语言之间的互补信息,生成多种目标语言的目标译文,同时提升多种目标语言的翻译质量。
-
公开(公告)号:CN118733846A
公开(公告)日:2024-10-01
申请号:CN202410761024.2
申请日:2024-06-13
Applicant: 中国科学院自动化研究所
IPC: G06F16/9032 , G06F16/903 , G06V10/25 , G06V10/40 , G06F16/9532 , G06F40/30 , G06F18/213 , G06F18/25
Abstract: 本发明提供一种大语言模型辅助的检索增强视觉问答方法,包括:获取待查询图像,以及所述待查询图像对应的待回答问题;对所述待查询图像和所述待回答问题进行实体匹配处理,得到所述待查询图像中与所述待回答问题相关的目标实体信息;基于所述目标实体信息对所述待查询图像进行视觉定位处理,得到所述待查询图像中与所述待回答问题相关联的感兴趣区域;基于所述待回答问题、所述待查询图像和所述感兴趣区域,从知识库中检索得到所述待回答问题的答案。通过对待查询图像中与问题直接相关的感兴趣区域进行准确定位,能够有效提升知识检索结果的准确性。
-
公开(公告)号:CN112800782B
公开(公告)日:2023-10-03
申请号:CN202110127939.4
申请日:2021-01-29
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/30 , G06F40/126 , G06N3/0499 , G06N3/084
Abstract: 本发明属于机器翻译领域,具体涉及一种融合文本语义特征的语音翻译方法、系统、设备,旨在解决现有语音翻译方法难以融合不同模态之间的信息,无法充分利用语音识别和机器翻译领域的数据,导致翻译性能较差的问题。本发明方法包括获取待翻译的源语言语音数据;提取源语言语音数据对应的语音特征序列;并获取各语音特征对应的声学表征;将声学表征的隐向量映射到源语言词表,并通过softmax函数得到语音特征序列每个时刻被识别为源语言词表中的词语的概率;对声学表征进行过滤处理,并通过第二编码器得到过滤后的声学特征对应的语义表征;基于语义表征,通过解码器得到源语言语音数据对应的目标语言翻译文本。本发明提高了语音翻译的性能。
-
公开(公告)号:CN115238770A
公开(公告)日:2022-10-25
申请号:CN202210744943.X
申请日:2022-06-27
Applicant: 中国科学院自动化研究所
IPC: G06K9/62 , G06N3/08 , G06F40/58 , G06F40/194 , G06F16/35
Abstract: 本发明提供一种多领域翻译模型训练方法、多领域翻译方法及装置。训练方法包括:确定初始翻译模型;基于初始翻译模型,确定样本源语言文本在第一领域的目标语言文本;基于初始翻译模型中的多个领域的子网络,确定样本源语言文本在第一领域的输出特征和在多个领域的融合输出特征之间的第一相似度,以及样本源语言文本在第二领域的输出特征和融合输出特征之间的第二相似度;基于目标语言文本和样本目标语言文本之间的差异、第一相似度和第二相似度,对初始翻译模型的参数进行迭代更新,得到训练完成的多领域翻译模型。在训练过程中能够学习到文本的特征和领域之间的关系,实现了模型具备不依赖领域标签的多个领域的翻译能力。
-
公开(公告)号:CN111445542B
公开(公告)日:2022-07-29
申请号:CN202010246799.8
申请日:2020-03-31
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于脑机接口技术领域,具体涉及一种基于弹性突触门的跨受试者神经解码系统、方法、装置,旨在解决在特定受试者上独立训练的神经解码在跨受试者解码时准确率较低的问题。本系统包括:预处理模块,配置为获取待解码的功能性核磁共振图像并进行预处理,得到预处理图像;解码模块,配置为通过基于弹性突触门的解码模型对所述预处理图像进行解码,得到在采集功能性核磁共振图像时受试者受到的刺激的向量表示;其中,基于弹性突触门的解码模型基于多层前向神经网络构建。本发明提高了基于功能性核磁共振成像的神经解码在跨受试者解码时的准确率。
-
公开(公告)号:CN114118104A
公开(公告)日:2022-03-01
申请号:CN202111199951.2
申请日:2021-10-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于知识图谱的神经机器翻译方法、装置、设备及介质,该方法包括:获取原始双语平行语句对,根据原始双语平行语句对提取单词和短语翻译对,得到对应的种子实体翻译对;获取源语言知识图谱和目标语言知识图谱,根据种子实体翻译对、源语言知识图谱和目标语言知识图谱,构建对应的向量空间;获取到待翻译实体集合时,根据向量空间对待翻译实体集合进行推断,得到对应的待翻译实体翻译对;计算种子实体翻译对和待翻译实体翻译对的距离,根据距离得到包含待翻译实体翻译对的伪双语平行句对。本发明通过将知识图谱融合到神经机器翻译中,利用知识图谱中丰富的实体知识提升了神经机器翻译的实体翻译准确率。
-
-
-
-
-
-
-
-
-