基于领域相似性度量方法的统计机器翻译方法

    公开(公告)号:CN103631773A

    公开(公告)日:2014-03-12

    申请号:CN201310689351.3

    申请日:2013-12-16

    Abstract: 基于领域相似性度量方法的统计机器翻译方法,涉及机器翻译技术领域。它解决了现机器翻译技术中选取平行语料的方法中,采用余弦函数与词频来作为领域间相似性的度工具并不能反应实际的相似程度以及忽略了文字背后的语义关联,而导致选取的平行语不能反映实际含义、最终影响翻译结果准确性的问题。本发明是在现有统计机器翻译方法中,在从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为训练语料,其中判断相似性的方法为:用相对词频或主题模型作为特征代表,采用余弦距离数、变分距离函数、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行档相似性度量。本发明的翻译结果更接近于人工翻译的结果。

Patent Agency Ranking