Patent search ap:("南京大学") AND inv:"杨文家" Page 1

1.

发明公开
基于Spark的大规模短语翻译模型的训练方法有权

公开(公告)号：CN106055543A

公开(公告)日：2016-10-26

申请号：CN201610346396.4

申请日：2016-05-23

Applicant: 南京大学

Inventor： 黄宜华 , 周娟 , 顾荣 , 杨文家 , 黄书剑

IPC: G06F17/28 , G06F17/30 , G06K9/62

CPC classification number: G06F17/289 , G06F17/30194 , G06K9/6256

Abstract: 本发明公开了一种基于Spark的大规模短语翻译模型的训练方法，包括以下步骤：首先采取Spark分布式地调用单机多线程词对齐训练工具MGIZA++的模式，在大规模平行语料库中使用期望最大化算法进行词对齐模型的迭代训练，生成带有词对齐信息的平行语料库；接着使用上一步生成的带有词对齐信息的双语语料数据，在Spark平台上实现了短语翻译模型的并行化训练，最终得到短语表。本发明提出了一种基于Spark的大规模翻译模型的训练方法，解决了现有翻译系统在翻译模型训练中耗时较长、数据扩展性不佳的问题。

2.

发明授权
基于Spark的大规模短语翻译模型的训练方法有权

公开(公告)号：CN106055543B

公开(公告)日：2019-04-09

申请号：CN201610346396.4

申请日：2016-05-23

Applicant: 南京大学

Inventor： 黄宜华 , 周娟 , 顾荣 , 杨文家 , 黄书剑

IPC: G06F17/28 , G06F16/182 , G06K9/62

Abstract: 本发明公开了一种基于Spark的大规模短语翻译模型的训练方法，包括以下步骤：首先采取Spark分布式地调用单机多线程词对齐训练工具MGIZA++的模式，在大规模平行语料库中使用期望最大化算法进行词对齐模型的迭代训练，生成带有词对齐信息的平行语料库；接着使用上一步生成的带有词对齐信息的双语语料数据，在Spark平台上实现了短语翻译模型的并行化训练，最终得到短语表。本发明提出了一种基于Spark的大规模翻译模型的训练方法，解决了现有翻译系统在翻译模型训练中耗时较长、数据扩展性不佳的问题。

Patent Agency Ranking