基于语义自适应编码的汉-越伪平行句对抽取方法

    公开(公告)号:CN111709245A

    公开(公告)日:2020-09-25

    申请号:CN202010366619.X

    申请日:2020-04-30

    Abstract: 本发明涉及基于语义自适应编码的汉-越伪平行句对抽取方法,属自然语言处理领域。本发明首先构建汉语-越南语平行词典;利用汉语-越南语平行词典对段落级的可比语料库进行预筛选,得到汉语-越南语伪平行候选句子并将其输入到BiLSTM编码器;将BiLSTM编码器的输出作为深度语义自适应思考模块的输入;输出再作为语义相似性度量模块的输入;语义相似性度量模块的输出再输入到带sigmoid的前馈神经网络的预测模块中,计算它们平行的概率。本发明实现了汉语和越南语的上下文语义信息更深层次的表征,提取到了更高质量、噪声更小的汉-越伪平行句对,为后续的汉语到越南语的语义分析、信息检索和机器翻译等工作提供强有力的支撑。

Patent Agency Ranking