-
公开(公告)号:CN113343672A
公开(公告)日:2021-09-03
申请号:CN202110685974.8
申请日:2021-06-21
Applicant: 哈尔滨工业大学
IPC: G06F40/242 , G06F40/284
Abstract: 一种基于语料合并的无监督双语词典构建方法,属于无监督双语词典构建领域。本方法步骤为:一、根据单语语料训练得到对应的单语词向量;二、根据单语词向量得到映射矩阵W;三、根据映射矩阵W抽取替换单词的词典;四、根据替换词典替换原来单语语料并且合并单语语料为混合语料;五、训练混合语料得到混合词向量;六、分离混合词向量得到新的源语言与目标语言词向量;七、基于新的词向量重新计算映射矩阵并据此构建词典。本发明应用于低资源语言无监督双语词典构建领域。本发明解决了低资源语言平行语料库匮乏导致的双语词典构建代价过高的问题,以及提高基于无监督双语构建的词典的性能的问题。
-
公开(公告)号:CN113343672B
公开(公告)日:2022-12-16
申请号:CN202110685974.8
申请日:2021-06-21
Applicant: 哈尔滨工业大学
IPC: G06F40/242 , G06F40/284
Abstract: 一种基于语料合并的无监督双语词典构建方法,属于无监督双语词典构建领域。本方法步骤为:一、根据单语语料训练得到对应的单语词向量;二、根据单语词向量得到映射矩阵W;三、根据映射矩阵W抽取替换单词的词典;四、根据替换词典替换原来单语语料并且合并单语语料为混合语料;五、训练混合语料得到混合词向量;六、分离混合词向量得到新的源语言与目标语言词向量;七、基于新的词向量重新计算映射矩阵并据此构建词典。本发明应用于低资源语言无监督双语词典构建领域。本发明解决了低资源语言平行语料库匮乏导致的双语词典构建代价过高的问题,以及提高基于无监督双语构建的词典的性能的问题。
-