-
公开(公告)号:CN112215017B
公开(公告)日:2022-04-29
申请号:CN202011141114.X
申请日:2020-10-22
Applicant: 内蒙古工业大学
IPC: G06F40/58 , G06F40/211 , G06F40/216 , G06F40/237 , G06F40/247 , G06N3/04 , G06N3/08
Abstract: 一种基于伪平行语料库构造的蒙汉机器翻译方法,通过利用简单数据增强、回译两种方式以精确蒙汉平行语料库为依据分别构造出蒙汉伪平行语料库和其中回译技术中所使用的汉蒙翻译模型ΘB采用条件生成对抗网络的架构来构建。将精确蒙汉平行语料库、三个语料库混合得到大规模蒙汉伪平行语料库,使用此语料库同样以条件生成对抗网络的架构来训练蒙汉翻译模型ΘA,并在训练过程中使用软上下文数据增强技术将输入到蒙汉翻译模型ΘA的编码器中的蒙语词的one‑hot向量进行平滑处理,利用这个平滑向量随机的替换原本要输入到翻译模型ΘA中编码器的one‑hot向量进行训练;目的在于优化翻译模型ΘA的参数,提升模型ΘA的翻译能力。
-
公开(公告)号:CN112215017A
公开(公告)日:2021-01-12
申请号:CN202011141114.X
申请日:2020-10-22
Applicant: 内蒙古工业大学
IPC: G06F40/58 , G06F40/211 , G06F40/216 , G06F40/237 , G06F40/247 , G06N3/04 , G06N3/08
Abstract: 一种基于伪平行语料库构造的蒙汉机器翻译方法,通过利用简单数据增强、回译两种方式以精确蒙汉平行语料库为依据分别构造出蒙汉伪平行语料库 和其中回译技术中所使用的汉蒙翻译模型ΘB采用条件生成对抗网络的架构来构建。将精确蒙汉平行语料库、 三个语料库混合得到大规模蒙汉伪平行语料库,使用此语料库同样以条件生成对抗网络的架构来训练蒙汉翻译模型ΘA,并在训练过程中使用软上下文数据增强技术将输入到蒙汉翻译模型ΘA的编码器中的蒙语词的one‑hot向量进行平滑处理,利用这个平滑向量随机的替换原本要输入到翻译模型ΘA中编码器的one‑hot向量进行训练;目的在于优化翻译模型ΘA的参数,提升模型ΘA的翻译能力。
-
公开(公告)号:CN111414770B
公开(公告)日:2022-03-18
申请号:CN202010110878.6
申请日:2020-02-24
Applicant: 内蒙古工业大学
Abstract: 目前,解码器‑编码器结构常用于神经机器翻译中,在平行语料充足的条件下获得了不错的效果。但对于蒙语这种小语种语言,蒙汉平行语料资源有限且极难获得,因此本发明提供了一种基于协同训练的半监督蒙汉神经机器翻译方法,利用半监督的分类生成对抗网络构建了三个翻译模型:蒙汉翻译模型M‑mo‑ch、英汉翻译模型M‑en‑ch、韩汉翻译模型M‑ko‑ch,并使用这三个翻译模型对多源端相互平行语料蒙英韩进行到目标端即汉语的标记,通过用汉语单语训练的语言模型LM‑ch选出质量最好的标记语料用来扩充原有语料库,并重新训练出更好的翻译模型。本发明将协同训练和半监督的分类生成对抗网络结合并运用在蒙汉神经机器翻译中,提高了蒙汉神经机器翻译模型的质量。
-
公开(公告)号:CN113850089A
公开(公告)日:2021-12-28
申请号:CN202111112986.8
申请日:2021-09-23
Applicant: 内蒙古工业大学
Abstract: 本发明公开了一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法,具体包括以下步骤:S1、NMT分类器继承标准的基于注意力的NMT后在规则词表上估计单词的预测概率;S2、SMT分类器计算由辅助SMT模型生成的SMT建议的概率;S3、将SMT建议整合到NMT中;本发明涉及神经机器翻译技术领域。该基于融合统计机器翻译模型的蒙汉神经机器翻译方法,通过将统计机器翻译模型合并到神经机器翻译框架中,以利用统计机器翻译和神经机器翻译模型的优点来实现更好的翻译,SMT分类器和门控函数在NMT结构中以端到端方式联合训练,此外,为了更好地缓解测试阶段的UNK问题,通过联合考虑NMT模型的注意概率和SMT模型的覆盖率信息,选择合适的SMT建议来代替目标UNK单词。
-
公开(公告)号:CN111414770A
公开(公告)日:2020-07-14
申请号:CN202010110878.6
申请日:2020-02-24
Applicant: 内蒙古工业大学
Abstract: 目前,解码器-编码器结构常用于神经机器翻译中,在平行语料充足的条件下获得了不错的效果。但对于蒙语这种小语种语言,蒙汉平行语料资源有限且极难获得,因此本发明提供了一种基于协同训练的半监督蒙汉神经机器翻译方法,利用半监督的分类生成对抗网络构建了三个翻译模型:蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch、韩汉翻译模型M-ko-ch,并使用这三个翻译模型对多源端相互平行语料蒙英韩进行到目标端即汉语的标记,通过用汉语单语训练的语言模型LM-ch选出质量最好的标记语料用来扩充原有语料库,并重新训练出更好的翻译模型。本发明将协同训练和半监督的分类生成对抗网络结合并运用在蒙汉神经机器翻译中,提高了蒙汉神经机器翻译模型的质量。
-
-
-
-