-
公开(公告)号:CN108073565A
公开(公告)日:2018-05-25
申请号:CN201610989788.2
申请日:2016-11-10
Applicant: 株式会社NTT都科摩
CPC classification number: G06F17/2785 , G06F16/951 , G06F17/289 , G06K9/6215
Abstract: 提供了词语规范化的方法和设备以及机器翻译方法和设备,所述词语规范化的方法包括:获取待规范化的目标词;利用网络搜索引擎检索用于解释该目标词的句子,并确定所述句子中与该目标词相关的词作为表示该目标词的规范化结果的第一组候选词;基于词向量计算目标词与第一组候选词中的各个候选词的相似度,并根据所述相似度对各个候选词进行排序;根据排序的结果确定目标词的规范化结果。上述词语规范化技术和机器翻译技术采用无监督方案根据非规范词的意思来对非规范词进行规范化,因此对于意思变型的非规范化词能够得到其规范化结果,并且改善了包含有意思变型的非规范化词的句子的机器翻译的性能。