基于Spark的大规模短语翻译模型的训练方法

    公开(公告)号:CN106055543A

    公开(公告)日:2016-10-26

    申请号:CN201610346396.4

    申请日:2016-05-23

    Applicant: 南京大学

    CPC classification number: G06F17/289 G06F17/30194 G06K9/6256

    Abstract: 本发明公开了一种基于Spark的大规模短语翻译模型的训练方法,包括以下步骤:首先采取Spark分布式地调用单机多线程词对齐训练工具MGIZA++的模式,在大规模平行语料库中使用期望最大化算法进行词对齐模型的迭代训练,生成带有词对齐信息的平行语料库;接着使用上一步生成的带有词对齐信息的双语语料数据,在Spark平台上实现了短语翻译模型的并行化训练,最终得到短语表。本发明提出了一种基于Spark的大规模翻译模型的训练方法,解决了现有翻译系统在翻译模型训练中耗时较长、数据扩展性不佳的问题。

    基于Spark的大规模短语翻译模型的训练方法

    公开(公告)号:CN106055543B

    公开(公告)日:2019-04-09

    申请号:CN201610346396.4

    申请日:2016-05-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于Spark的大规模短语翻译模型的训练方法,包括以下步骤:首先采取Spark分布式地调用单机多线程词对齐训练工具MGIZA++的模式,在大规模平行语料库中使用期望最大化算法进行词对齐模型的迭代训练,生成带有词对齐信息的平行语料库;接着使用上一步生成的带有词对齐信息的双语语料数据,在Spark平台上实现了短语翻译模型的并行化训练,最终得到短语表。本发明提出了一种基于Spark的大规模翻译模型的训练方法,解决了现有翻译系统在翻译模型训练中耗时较长、数据扩展性不佳的问题。

Patent Agency Ranking