机器翻译模型的训练方法、语言翻译方法及设备

    公开(公告)号:CN113705251A

    公开(公告)日:2021-11-26

    申请号:CN202110356556.4

    申请日:2021-04-01

    Abstract: 本申请实施例公开了一种机器翻译模型的训练方法、语言翻译方法及设备,涉及自然语言处理的机器翻译领域。该方法包括:对第一双语平行数据库中的数据进行划分,划分为源自源语言数据和源自目标语言数据,通过源自源语言数据对初始机器翻译模型进行微调,得到微调后的机器翻译模型,应用该微调后的机器翻译模型进行翻译任务,能够消除由于不同语言的数据之间存在的语言覆盖偏差对机器翻译模型的影响,从而提高通过该方法训练得到的机器翻译模型的性能,应用该模型可以得到译文质量和忠实度较高的译文。

    机器翻译自动后编辑方法及装置

    公开(公告)号:CN110765791B

    公开(公告)日:2021-04-06

    申请号:CN201911060848.2

    申请日:2019-11-01

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种机器翻译自动后编辑方法及装置,方法包括:获取目标源语言句子和目标机器翻译草稿;将目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出目标机器翻译草稿对应的编辑后句子;其中,自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。可提升机器翻译自动后编辑的编辑效果,准确性较高。

    一种翻译处理方法及系统
    184.
    发明授权

    公开(公告)号:CN108874785B

    公开(公告)日:2020-11-03

    申请号:CN201810555273.0

    申请日:2018-06-01

    Abstract: 本发明实施例提供一种翻译处理方法及系统,其中方法包括:获取源语言的语句;将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;根据所述向量序列逐词地预测目标语言中相应的候选词;根据预测得到的候选词生成目标语言的语句,在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词。本发明实施例使得数据稀疏的语言对可以获得更佳的翻译质量。

    一种用于机器翻译系统的融合方法及装置

    公开(公告)号:CN111652004A

    公开(公告)日:2020-09-11

    申请号:CN202010388547.9

    申请日:2020-05-09

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种用于机器翻译系统的融合方法及装置。该方法包括:获取源语句和若干待融合翻译草稿,建立机器翻译系统融合任务模型;在机器翻译系统融合任务模型中定义编码器,得到源语句编码结果和翻译草稿编码结果,并作为解码器的输入,得到目标翻译概率;基于目标翻译概率,引入投票机制,使若干待融合翻译草稿中的词进行相互投票,得到出现在若干待融合翻译草稿中的高频词;综合所有高频词结果,得到目标翻译结果。本发明实施例通过将投票机制引入基于深度神经网络的机器翻译系统融合方法中,既能更好地综合各翻译系统的翻译结果,同时使用端到端神经网络方法能降低错误传播,从而改善翻译的最终质量,具有良好的实用性。

    一种跨语言搜索方法和装置、一种用于跨语言搜索的装置

    公开(公告)号:CN108255939B

    公开(公告)日:2020-02-14

    申请号:CN201711297472.8

    申请日:2017-12-08

    Abstract: 本发明实施例提供了一种跨语言搜索方法和装置、一种用于跨语言搜索的装置,其中的方法具体包括:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。本发明实施例可以提高翻译搜索结果的准确率、以及翻译搜索结果与目标语言搜索结果之间的一致性,且可以提高翻译搜索结果对于用户的吸引力,从而可以进一步提高翻译搜索结果的点击率。

    一种基于无监督领域自适应的神经网络机器翻译方法

    公开(公告)号:CN107038159B

    公开(公告)日:2019-07-12

    申请号:CN201710139214.0

    申请日:2017-03-09

    Applicant: 清华大学

    Abstract: 本发明提供一种基于无监督领域自适应的神经网络机器翻译方法,包括:将双语语料训练样本中源端句最后一个词和第一个词的向量表示作为Softmax分类器和翻译模块的输入进行训练;根据Softmax分类器生成的领域数目,生成翻译网络解码器的数目,基于目标端的解码器生成目标端以及所对应的领域。本发明克服了现有技术中缺乏已标注领域数据的问题,节省时间和成本,能够高效准确地完成翻译和领域之间的自适应,具有较好的实用性,具备良好的适用范围以及可扩展性。

    具有悬臂梁结构的高灵敏度微型电场传感器件

    公开(公告)号:CN109212327A

    公开(公告)日:2019-01-15

    申请号:CN201811243889.0

    申请日:2018-10-24

    Applicant: 清华大学

    Abstract: 一种具有悬臂梁结构的高灵敏度微型电场传感器件,包括底座,所述底座上通过固定件安装有半导体薄膜,所述半导体薄膜掺杂内镶嵌所述离子掺杂电阻区,所述压电薄膜沉积在半导体薄膜顶面。其有益效果是:保证了电场传感器具有灵敏度高、动态范围广、频率范围宽的应用目标。半导体薄膜离子掺杂区响应幅值大,器件灵敏度高。采集电力系统的稳定运行特征量外,可监测故障及各种过电压的特征,为电网故障诊断及绝缘配合等研究提供精确的大数据。易于微型化,集成化程度高,成本低,适合批量生产,因而适用于大电网线路及电气设备的密集型布置,以全面采集电气信息,反映电力系统的特征。

    一种跨语言搜索方法和装置、一种用于跨语言搜索的装置

    公开(公告)号:CN108255939A

    公开(公告)日:2018-07-06

    申请号:CN201711297472.8

    申请日:2017-12-08

    Abstract: 本发明实施例提供了一种跨语言搜索方法和装置、一种用于跨语言搜索的装置,其中的方法具体包括:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。本发明实施例可以提高翻译搜索结果的准确率、以及翻译搜索结果与目标语言搜索结果之间的一致性,且可以提高翻译搜索结果对于用户的吸引力,从而可以进一步提高翻译搜索结果的点击率。

    一种语言文本翻译方法及系统

    公开(公告)号:CN107273363A

    公开(公告)日:2017-10-20

    申请号:CN201710335652.4

    申请日:2017-05-12

    Abstract: 本发明提供一种语言文本翻译方法及系统。该方法包括:根据预设的翻译候选集合确定规则,确定源语言文本对应的翻译候选集合,所述翻译候选集合包括源语言文本的多个翻译文本;所述源语言文本为待翻译的语言文本;基于所述翻译候选集合、预设的翻译模型及预设的先验知识模型,确定第一概率分布及第二概率分布;所述第一概率分布用于指示所述翻译文本符合先验知识模型的概率,所述第二概率分布用于指示所述翻译文本符合翻译模型的概率;基于所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本。本发明可以将任意先验知识融入翻译模型中,从而提高机器翻译的准确性和可靠性。

Patent Agency Ranking