一种汉英词语自动对齐方法

    公开(公告)号:CN101482861A

    公开(公告)日:2009-07-15

    申请号:CN200810055783.8

    申请日:2008-01-09

    Abstract: 本发明涉及一种汉英词语自动对齐方法,首先对原始汉、英双语句提取划分语块的特征信息划分,生成多层不同粒度的语块划分锚点信息,对双语词对之间进行局部定位,生成词对齐文件。本发明解决了传统方法规划路径多、复杂度高,难生成好的对齐结果,影响对齐效率的问题,本发明根据相关特征将汉英双语句子分割,完成不同粒度下的单元对齐,在各种粒度下将词对齐操作限制在相应的单元范围内。实验表明,该方法获得的词语对齐比GIZA++工具包词对齐错误率下降了28%,在该词对齐基础上的翻译结果BLEU打分比原始词对齐提高了20%,而且克服了GIZA++不能对超过100个单词的长句子进行很好的词语对齐的弊端。

    一种基于非连续短语的泛化重排序统计翻译方法及装置

    公开(公告)号:CN101685441A

    公开(公告)日:2010-03-31

    申请号:CN200810222771.X

    申请日:2008-09-24

    Inventor: 宗成庆 何彦青

    Abstract: 一种基于非连续短语的泛化重排序统计翻译方法及装置,由词对齐模块、语言模型模块、抽取短语模块、训练最大熵分类器模块,最小错误训练模块以及解码器组成装置,对基于短语的统计机器翻译给出泛化的重排序模型,引入非连续短语,对于给定的待翻译文种中的任何一个连续的串,利用规则来组合连续短语和非连续短语,来获取尽可能多的连续的目标翻译,同时与一个重排序的子模型结合,实现短语的局部和全局的重排序,得到该源语言句子的最后的目标翻译。该模型能够抓住短语的局部和全局重排序知识,而且能够通过非连续的短语获得短语的泛化能力。实验结果表明模型改善了基于最大熵的重排序模型和基于层次短语的翻译模型大约1.54%and 0.66%的BLEU打分。

    一种汉英词语自动对齐方法

    公开(公告)号:CN101482861B

    公开(公告)日:2011-06-01

    申请号:CN200810055783.8

    申请日:2008-01-09

    Abstract: 本发明涉及一种汉英词语自动对齐方法,首先对原始汉、英双语句提取划分语块的特征信息划分,生成多层不同粒度的语块划分锚点信息,对双语词对之间进行局部定位,生成词对齐文件。本发明解决了传统方法规划路径多、复杂度高,难生成好的对齐结果,影响对齐效率的问题,本发明根据相关特征将汉英双语句子分割,完成不同粒度下的单元对齐,在各种粒度下将词对齐操作限制在相应的单元范围内。实验表明,该方法获得的词语对齐比GIZA++工具包词对齐错误率下降了28%,在该词对齐基础上的翻译结果BLEU打分比原始词对齐提高了20%,而且克服了GIZA++不能对超过100个单词的长句子进行很好的词语对齐的弊端。

Patent Agency Ranking