-
公开(公告)号:CN111709245A
公开(公告)日:2020-09-25
申请号:CN202010366619.X
申请日:2020-04-30
Applicant: 昆明理工大学
IPC: G06F40/30 , G06F40/242 , G06F40/211 , G06F40/58 , G06F16/35 , G06N3/04 , G06N3/08
Abstract: 本发明涉及基于语义自适应编码的汉-越伪平行句对抽取方法,属自然语言处理领域。本发明首先构建汉语-越南语平行词典;利用汉语-越南语平行词典对段落级的可比语料库进行预筛选,得到汉语-越南语伪平行候选句子并将其输入到BiLSTM编码器;将BiLSTM编码器的输出作为深度语义自适应思考模块的输入;输出再作为语义相似性度量模块的输入;语义相似性度量模块的输出再输入到带sigmoid的前馈神经网络的预测模块中,计算它们平行的概率。本发明实现了汉语和越南语的上下文语义信息更深层次的表征,提取到了更高质量、噪声更小的汉-越伪平行句对,为后续的汉语到越南语的语义分析、信息检索和机器翻译等工作提供强有力的支撑。