神经机器翻译模型训练方法、神经机器翻译方法及装置

    公开(公告)号:CN111539229A

    公开(公告)日:2020-08-14

    申请号:CN201910054869.7

    申请日:2019-01-21

    Abstract: 本发明涉及神经机器翻译模型训练方法、神经机器翻译方法及装置。该神经机器翻译方法包括:识别待翻译的源语句中的命名实体;用与命名实体的类别对应的标签替换所识别的命名实体,获得中间源语句;通过神经机器翻译模型翻译中间源语句,获得带有标签的中间目标语句;从预置的命名实体词典和/或命名实体库查找命名实体的译文;以及用查找到的译文替换中间目标语句中相应的标签,获得与待翻译的源语句对应的目标语句。本发明解决了在机器翻译的过程中,低频的命名实体被错翻译或漏翻译的问题。

    多语言自动文摘方法
    52.
    发明授权

    公开(公告)号:CN106874362B

    公开(公告)日:2020-01-10

    申请号:CN201611253245.0

    申请日:2016-12-30

    Abstract: 本发明涉及一种多语言自动文摘方法,包括以下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构;步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。本发明中,实现了获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。

    一种双语篇章标注方法
    53.
    发明授权

    公开(公告)号:CN106021224B

    公开(公告)日:2019-03-15

    申请号:CN201610317745.X

    申请日:2016-05-13

    Abstract: 本发明公开了一种双语篇章标注方法,该方法包括:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。本发明能够对双语平行句子进行较高一致性的篇章分析。在中英语言对上,经过标注实验的验证:相对于已有的单语篇章分析方法,本发明方法能分析得到一致性程度更高的篇章分析结果,从篇章的切分信息,到篇章的结构信息都有较高的一致性提升。

    基于文本‑图像匹配的多模态自动文摘方法

    公开(公告)号:CN106997387A

    公开(公告)日:2017-08-01

    申请号:CN201710195587.X

    申请日:2017-03-28

    CPC classification number: G06F16/345 G06K9/00744 G06K9/6201

    Abstract: 本发明提供了一种基于文本‑图像匹配的多模态自动文摘方法,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本‑图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。通过训练文本‑图像匹配模型,将图像或视频中的信息利用文本‑图像匹配模型找到对应语义的文本,实现了同时处理文本、图像和视频信息进行文本摘要,使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。

    基于神经机器翻译系统的单词预测方法及系统

    公开(公告)号:CN106844352A

    公开(公告)日:2017-06-13

    申请号:CN201611209226.8

    申请日:2016-12-23

    Abstract: 本发明涉及一种基于神经机器翻译系统的单词预测方法及系统,所述单词预测方法包括:对平行语料进行训练,从训练结果中抽取,获得短语翻译表;对任意平行句对中的源语言句子进行匹配搜索,确定源语言句子中包含的全部源语言短语;从短语翻译表中查找各源语言短语分别对应的目标短语翻译候选集;根据目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定目标单词集中各目标单词的鼓励值;根据各目标单词的鼓励值,获得各目标单词的预测概率。通过引入短语翻译表获得目标单词的鼓励值,并添加到神经翻译模型中,从而可提高目标单词的预测概率。

    多语言翻译方法、装置、电子设备及存储介质

    公开(公告)号:CN114139556B

    公开(公告)日:2025-03-21

    申请号:CN202111271484.X

    申请日:2021-10-29

    Abstract: 本发明提供一种多语言翻译方法、装置、电子设备及存储介质,方法包括:获取训练数据和源语言的文本;其中,训练数据包括源语言到多种目标语言的双语平行句对和多语言平行句对;对源语言的文本进行编码,得到源语言的文本对应的特征向量;其中,特征向量与目标语言无关;基于特征向量和多种目标语言已生成的译文,确定多种目标语言的当前词的最终表示;基于语言独立的柱搜索算法及多种目标语言的当前词的最终表示,对多种目标语言的已生成最优候选译文进行扩展,得到多种目标语言的目标译文。本发明提供的方法,能够利用多种目标语言之间的互补信息,生成多种目标语言的目标译文,同时提升多种目标语言的翻译质量。

    大语言模型辅助的检索增强视觉问答方法、装置

    公开(公告)号:CN118733846A

    公开(公告)日:2024-10-01

    申请号:CN202410761024.2

    申请日:2024-06-13

    Abstract: 本发明提供一种大语言模型辅助的检索增强视觉问答方法,包括:获取待查询图像,以及所述待查询图像对应的待回答问题;对所述待查询图像和所述待回答问题进行实体匹配处理,得到所述待查询图像中与所述待回答问题相关的目标实体信息;基于所述目标实体信息对所述待查询图像进行视觉定位处理,得到所述待查询图像中与所述待回答问题相关联的感兴趣区域;基于所述待回答问题、所述待查询图像和所述感兴趣区域,从知识库中检索得到所述待回答问题的答案。通过对待查询图像中与问题直接相关的感兴趣区域进行准确定位,能够有效提升知识检索结果的准确性。

    融合文本语义特征的语音翻译方法、系统、设备

    公开(公告)号:CN112800782B

    公开(公告)日:2023-10-03

    申请号:CN202110127939.4

    申请日:2021-01-29

    Abstract: 本发明属于机器翻译领域,具体涉及一种融合文本语义特征的语音翻译方法、系统、设备,旨在解决现有语音翻译方法难以融合不同模态之间的信息,无法充分利用语音识别和机器翻译领域的数据,导致翻译性能较差的问题。本发明方法包括获取待翻译的源语言语音数据;提取源语言语音数据对应的语音特征序列;并获取各语音特征对应的声学表征;将声学表征的隐向量映射到源语言词表,并通过softmax函数得到语音特征序列每个时刻被识别为源语言词表中的词语的概率;对声学表征进行过滤处理,并通过第二编码器得到过滤后的声学特征对应的语义表征;基于语义表征,通过解码器得到源语言语音数据对应的目标语言翻译文本。本发明提高了语音翻译的性能。

    中文篇章关系的分类方法及装置

    公开(公告)号:CN108959351B

    公开(公告)日:2022-11-08

    申请号:CN201810377825.3

    申请日:2018-04-25

    Abstract: 本发明属于自然语言处理技术领域,具体提供一种中文篇章关系的分类方法及装置。旨在解决传统管道系统方法中错误传递的问题。本发明的中文篇章关系的分类方法包括将中文篇章中的句子进行句对的分布式表示,得到第一句对分布式表示向量;计算记忆单元与第一句对分布式表示向量的相似度和权重,得到第一句对分布式表示向量的记忆信息;将第一句对分布式表示向量与记忆信息进行线性组合生成第二句对分布式表示向量;对第二句对分布式表示向量进行分类,得到中文篇章的关系分类结果。本发明的方法通过深度学习网络得到句子内部的语义和结构抽象特征,可以获得优越性能的篇章分类效果。

    多领域翻译模型训练方法、多领域翻译方法及装置

    公开(公告)号:CN115238770A

    公开(公告)日:2022-10-25

    申请号:CN202210744943.X

    申请日:2022-06-27

    Inventor: 张家俊 陆金梁

    Abstract: 本发明提供一种多领域翻译模型训练方法、多领域翻译方法及装置。训练方法包括:确定初始翻译模型;基于初始翻译模型,确定样本源语言文本在第一领域的目标语言文本;基于初始翻译模型中的多个领域的子网络,确定样本源语言文本在第一领域的输出特征和在多个领域的融合输出特征之间的第一相似度,以及样本源语言文本在第二领域的输出特征和融合输出特征之间的第二相似度;基于目标语言文本和样本目标语言文本之间的差异、第一相似度和第二相似度,对初始翻译模型的参数进行迭代更新,得到训练完成的多领域翻译模型。在训练过程中能够学习到文本的特征和领域之间的关系,实现了模型具备不依赖领域标签的多个领域的翻译能力。

Patent Agency Ranking