文本处理方法、装置、电子设备以及存储介质

    公开(公告)号:CN119443049A

    公开(公告)日:2025-02-14

    申请号:CN202411417310.3

    申请日:2024-10-11

    Abstract: 本申请实施例提供了一种文本处理方法、装置、电子设备以及存储介质,属于人工智能技术领域。该方法包括:将获取到的待处理的初始文本信息分别输入至预设的大语言模型中,得到各个大语言模型对应输出的初始特征,大语言模型包括模型结构不同的目标大语言模型和多个异构大语言模型;基于与目标大语言模型以及每个异构大语言模型的模型结构对应的各个向量转换矩阵,对任意一个初始特征进行映射处理,得到在同一向量空间下各个大语言模型对应的映射特征;基于多个不同的映射特征确定目标特征,并基于目标大语言模型对目标特征进行逆映射处理,得到初始文本信息对应的目标文本信息。本申请能够提高输出的目标文本信息的准确度。

    多语言机器翻译模型的参数分配方法、装置、设备和介质

    公开(公告)号:CN118690761A

    公开(公告)日:2024-09-24

    申请号:CN202410854813.0

    申请日:2024-06-27

    Abstract: 本申请提供了一种多语言机器翻译模型的参数分配方法、装置、设备和介质,方法包括:对多语言机器翻译模型的每个语言方向,基于预设语言数据集进行参数调整,得到模型参数绝对值排序;进行联合参数调整,得到各语言方向的方向梯度,根据方向梯度确定平均梯度及第一相似系数,进而确定方向剪枝率;通过迭代联合参数调整,根据第二相似系数调整方向剪枝率,得到目标剪枝率,并根据目标剪枝率和绝对值排序对每个语言方向的模型参数进行剪枝处理,其中,本申请可以基于各方向梯度与平均梯度之间的一致性,动态调试各方向的剪枝率,以实现各方向的参数分配优化,有效促进跨语言知识的正向迁移,抑制负向迁移,进而提高模型的整体翻译性能。

    文本翻译方法、装置、电子设备以及存储介质

    公开(公告)号:CN119398063A

    公开(公告)日:2025-02-07

    申请号:CN202411414815.4

    申请日:2024-10-11

    Abstract: 本申请实施例提供了一种文本翻译方法、装置、电子设备以及存储介质,属于机器翻译技术领域。该方法包括:获取源语言下的原始文本;对原始文本进行初步翻译,得到目标语言下的初始翻译文本,并基于原始文本和初始翻译文本确定原始文本中的难点词语,以及难点词语在初始翻译文本中的初始单词译文;单独对原始文本中的难点词语进行单词解释,得到目标语言下的难点单词翻译文本;基于难点单词翻译文本对初始单词译文进行修正,得到修正后的目标单词译文,并基于目标单词译文更新初始翻译文本,得到原始文本在目标语言下的目标文本。本申请能够提高文本翻译结果的准确性。

    篇章级文本机器翻译方法、系统、设备及介质

    公开(公告)号:CN116306704A

    公开(公告)日:2023-06-23

    申请号:CN202310557293.2

    申请日:2023-05-17

    Abstract: 本申请提供了篇章级文本机器翻译方法、系统、设备及介质,属于自然语言技术领域。方法包括:获取待翻译的目标句子和对应的上下文信息;对目标句子和上下文信息进行编码,得到结合上下文信息编码后的第一隐藏层状态信息;对目标句子进行编码,得到单独编码后的第二隐藏层状态信息;将第一隐藏层状态信息和第二隐藏层状态信息输入到预置的判别模型中,得到进行语义相似度计算后输出的模型输出信息;根据模型输出信息确定目标句子对上下文信息的依赖性信息,根据依赖性信息对满足依赖关系的目标句子和上下文信息进行翻译操作。本申请针对性选择上下文信息进行翻译,机器翻译过程中会关注不同语句对于上下文信息的依赖性差别,提高机器翻译的质量。

    篇章级文本机器翻译方法、系统、设备及介质

    公开(公告)号:CN116306704B

    公开(公告)日:2023-08-22

    申请号:CN202310557293.2

    申请日:2023-05-17

    Abstract: 本申请提供了篇章级文本机器翻译方法、系统、设备及介质,属于自然语言技术领域。方法包括:获取待翻译的目标句子和对应的上下文信息;对目标句子和上下文信息进行编码,得到结合上下文信息编码后的第一隐藏层状态信息;对目标句子进行编码,得到单独编码后的第二隐藏层状态信息;将第一隐藏层状态信息和第二隐藏层状态信息输入到预置的判别模型中,得到进行语义相似度计算后输出的模型输出信息;根据模型输出信息确定目标句子对上下文信息的依赖性信息,根据依赖性信息对满足依赖关系的目标句子和上下文信息进行翻译操作。本申请针对性选择上下文信息进行翻译,机器翻译过程中会关注不同语句对于上下文信息的依赖性差别,提高机器翻译的质量。

    文本翻译方法、装置、设备和存储介质

    公开(公告)号:CN116362265A

    公开(公告)日:2023-06-30

    申请号:CN202310595862.2

    申请日:2023-05-25

    Abstract: 本发明实施例提供文本翻译方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:通过对源语言句子进行编码,得到第一隐藏层向量;然后根据第一隐藏层向量执行迭代翻译过程,在迭代翻译过程中对预测序列的错误进行定位,将错误词语进行掩码后重新预测,直至满足迭代结束条件,将预测序列作为源语言句子的目标语言翻译句子。本申请实施例针对非自回归文本翻译,利用迭代式解码机制提升翻译性能,不同于一次性生成翻译结果的方式,并且其通过迭代翻译过程多次微调中间翻译结果的预测序列,准确判断生成的预测序列中词语的正确性,对其进行错误进行定位,根据定位结果替换需要修改的预测词,能够提升推理速度以及翻译结果。

    一种基于图网络的多语言翻译的词表初始化方法及装置

    公开(公告)号:CN115952809A

    公开(公告)日:2023-04-11

    申请号:CN202211709287.6

    申请日:2022-12-29

    Abstract: 本发明公开了一种基于图网络的多语言翻译的词表初始化方法及装置,包括:根据每种语言对应的双语词典、词语及词元的分解构成关系,构建每种语言与核心语言之间的词表映射异质图;根据异质图神经网络和对比学习算法,在词表映射异质图上学习不同语言词表与核心语言词表之间的词元映射关系;将多语言机器翻译任务中的核心语言词表的词元利用核心语言BERT模型的词表进行初始化,并根据词元映射关系将其他语言映射到核心语言BERT模型的词表空间,完成多语言机器翻译任务中所有词元的初始化。本发明利用构建词元异质图的方式来完成不同语言词元的映射来初始化词元,提高了多语言机器翻译模型的翻译准确率,同时也加快了模型收敛速度。

Patent Agency Ranking