-
公开(公告)号:CN107273363B
公开(公告)日:2019-11-22
申请号:CN201710335652.4
申请日:2017-05-12
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/28
Abstract: 本发明提供一种语言文本翻译方法及系统。该方法包括:根据预设的翻译候选集合确定规则,确定源语言文本对应的翻译候选集合,所述翻译候选集合包括源语言文本的多个翻译文本;所述源语言文本为待翻译的语言文本;基于所述翻译候选集合、预设的翻译模型及预设的先验知识模型,确定第一概率分布及第二概率分布;所述第一概率分布用于指示所述翻译文本符合先验知识模型的概率,所述第二概率分布用于指示所述翻译文本符合翻译模型的概率;基于所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本。本发明可以将任意先验知识融入翻译模型中,从而提高机器翻译的准确性和可靠性。
-
公开(公告)号:CN109446534B
公开(公告)日:2020-07-31
申请号:CN201811109824.7
申请日:2018-09-21
Applicant: 清华大学 , 北京搜狗科技发展有限公司
Abstract: 本发明实施例提供一种机器翻译方法及装置,其中方法包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果。本发明实施例能够解决机器翻译对上下文的依赖,显著提高翻译质量。
-
公开(公告)号:CN111652004B
公开(公告)日:2022-07-05
申请号:CN202010388547.9
申请日:2020-05-09
Applicant: 清华大学
IPC: G06F40/58 , G06K9/62 , G06F30/27 , G06F111/08
Abstract: 本发明实施例提供一种用于机器翻译系统的融合方法及装置。该方法包括:获取源语句和若干待融合翻译草稿,建立机器翻译系统融合任务模型;在机器翻译系统融合任务模型中定义编码器,得到源语句编码结果和翻译草稿编码结果,并作为解码器的输入,得到目标翻译概率;基于目标翻译概率,引入投票机制,使若干待融合翻译草稿中的词进行相互投票,得到出现在若干待融合翻译草稿中的高频词;综合所有高频词结果,得到目标翻译结果。本发明实施例通过将投票机制引入基于深度神经网络的机器翻译系统融合方法中,既能更好地综合各翻译系统的翻译结果,同时使用端到端神经网络方法能降低错误传播,从而改善翻译的最终质量,具有良好的实用性。
-
公开(公告)号:CN110232193B
公开(公告)日:2020-08-28
申请号:CN201910349677.9
申请日:2019-04-28
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F40/58 , G06F40/289
Abstract: 本发明实施例提供一种结构化文本翻译方法及装置,包括:将待翻译的目标结构化文本的结构化标记去除,得到目标文本;将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息;根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。本发明实施例通过将结构化文本的结构化标记去除,从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译,并将翻译后的文本恢复结构化标记,得到结构化翻译文本,实现了通过神经网络模型对结构化文本进行翻译。
-
公开(公告)号:CN110232193A
公开(公告)日:2019-09-13
申请号:CN201910349677.9
申请日:2019-04-28
Applicant: 清华大学 , 北京搜狗科技发展有限公司
Abstract: 本发明实施例提供一种结构化文本翻译方法及装置,包括:将待翻译的目标结构化文本的结构化标记去除,得到目标文本;将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息;根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。本发明实施例通过将结构化文本的结构化标记去除,从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译,并将翻译后的文本恢复结构化标记,得到结构化翻译文本,实现了通过神经网络模型对结构化文本进行翻译。
-
公开(公告)号:CN109446534A
公开(公告)日:2019-03-08
申请号:CN201811109824.7
申请日:2018-09-21
Applicant: 清华大学 , 北京搜狗科技发展有限公司
Abstract: 本发明实施例提供一种机器翻译方法及装置,其中方法包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果。本发明实施例能够解决机器翻译对上下文的依赖,显著提高翻译质量。
-
公开(公告)号:CN108596337A
公开(公告)日:2018-09-28
申请号:CN201810416509.2
申请日:2018-05-03
Applicant: 清华大学
Abstract: 本发明提供一种神经网络中向量相关性计算方法及系统,所述方法包括:S1,根据目标神经网络的拓扑结构,获取所述目标神经网络中各输入层神经元到所述目标神经网络中各输出层神经元之间的路径;其中,所述输入层神经元用于输入端向量的输入,所述输出层神经元用于输出端向量的输出;S2,计算从各所述输入层神经元到各所述输出层神经元的路径总得分,根据所述路径总得分获取所述输入端向量与所述输出端向量之间的相关性。本发明可以正向传播相关性,并在前向计算中使用得到的相关性,应用范围广。
-
公开(公告)号:CN111652004A
公开(公告)日:2020-09-11
申请号:CN202010388547.9
申请日:2020-05-09
Applicant: 清华大学
IPC: G06F40/58 , G06K9/62 , G06F30/27 , G06F111/08
Abstract: 本发明实施例提供一种用于机器翻译系统的融合方法及装置。该方法包括:获取源语句和若干待融合翻译草稿,建立机器翻译系统融合任务模型;在机器翻译系统融合任务模型中定义编码器,得到源语句编码结果和翻译草稿编码结果,并作为解码器的输入,得到目标翻译概率;基于目标翻译概率,引入投票机制,使若干待融合翻译草稿中的词进行相互投票,得到出现在若干待融合翻译草稿中的高频词;综合所有高频词结果,得到目标翻译结果。本发明实施例通过将投票机制引入基于深度神经网络的机器翻译系统融合方法中,既能更好地综合各翻译系统的翻译结果,同时使用端到端神经网络方法能降低错误传播,从而改善翻译的最终质量,具有良好的实用性。
-
公开(公告)号:CN108255939B
公开(公告)日:2020-02-14
申请号:CN201711297472.8
申请日:2017-12-08
Applicant: 北京搜狗科技发展有限公司 , 清华大学
IPC: G06F16/953 , G06F40/40
Abstract: 本发明实施例提供了一种跨语言搜索方法和装置、一种用于跨语言搜索的装置,其中的方法具体包括:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。本发明实施例可以提高翻译搜索结果的准确率、以及翻译搜索结果与目标语言搜索结果之间的一致性,且可以提高翻译搜索结果对于用户的吸引力,从而可以进一步提高翻译搜索结果的点击率。
-
公开(公告)号:CN108255939A
公开(公告)日:2018-07-06
申请号:CN201711297472.8
申请日:2017-12-08
Applicant: 北京搜狗科技发展有限公司 , 清华大学
Abstract: 本发明实施例提供了一种跨语言搜索方法和装置、一种用于跨语言搜索的装置,其中的方法具体包括:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。本发明实施例可以提高翻译搜索结果的准确率、以及翻译搜索结果与目标语言搜索结果之间的一致性,且可以提高翻译搜索结果对于用户的吸引力,从而可以进一步提高翻译搜索结果的点击率。
-
-
-
-
-
-
-
-
-