-
公开(公告)号:CN110427608B
公开(公告)日:2021-06-08
申请号:CN201910549589.3
申请日:2019-06-24
Applicant: 浙江大学
IPC: G06F40/295 , G06F40/30 , G06F40/216 , G06F16/33 , G06F16/951 , G06N3/08
Abstract: 本发明公开了一种基于分层形声特征增强的中文词向量表示技术。采用分层形声特征增强的中文词向量表示方法,可以较大地提升中文词向量的效果。本发明包括如下步骤:1)首先运用爬虫工具抓取中文词语的相关形态和发音信息;2)通过对形态和发音信息的分层组合,构成形态特征和声音特征,构建词语的特征表示;3)通过注意力机制对输入部分的形声特征进行权重调节;4)采用解耦预测和混合预测联合的训练方式来训练词向量的表示。和现有技术相比,本发明结合了中文词语多层次的形态和发音信息,并采用解耦预测和混合预测联合的方式,系统地进行词向量的训练,形成独具一格的中文词向量表示技术,创造性地提升了中文词向量的效果。
-
公开(公告)号:CN110427608A
公开(公告)日:2019-11-08
申请号:CN201910549589.3
申请日:2019-06-24
Applicant: 浙江大学
IPC: G06F17/27 , G06F16/33 , G06F16/951 , G06N3/08
Abstract: 本发明公开了一种基于分层形声特征增强的中文词向量表示技术。采用分层形声特征增强的中文词向量表示方法,可以较大地提升中文词向量的效果。本发明包括如下步骤:1)首先运用爬虫工具抓取中文词语的相关形态和发音信息;2)通过对形态和发音信息的分层组合,构成形态特征和声音特征,构建词语的特征表示;3)通过注意力机制对输入部分的形声特征进行权重调节;4)采用解耦预测和混合预测联合的训练方式来训练词向量的表示。和现有技术相比,本发明结合了中文词语多层次的形态和发音信息,并采用解耦预测和混合预测联合的方式,系统地进行词向量的训练,形成独具一格的中文词向量表示技术,创造性地提升了中文词向量的效果。
-