-
公开(公告)号:CN108595426B
公开(公告)日:2021-07-20
申请号:CN201810368909.0
申请日:2018-04-23
Applicant: 北京交通大学
IPC: G06F40/289 , G06F40/216 , G06F40/30 , G06F16/35
Abstract: 本发明提供了一种基于汉字字形结构性信息的词向量优化方法。该方法包括:获取待处理词语的分布式词向量;根据所述待处理词语所包含的汉字进行词语的词形特征表示,获取待处理词语的词形特征向量;将所述待处理词语的词形特征向量和分布式词向量进行结合表示,得到待处理词语的优化特征向量。本发明设计了一种利用汉语字形结构信息进行词向量表达优化的方案,利用原有的神经网络词分布式表达技术,结合汉语的字形结构特征,基于实际的自然语言处理任务进行了词向量的特性优化,使得词向量的表达能力和泛化迁移能力得到加强,有助于改善词向量在低频词和未知词上的词特征表示。
-
公开(公告)号:CN108595426A
公开(公告)日:2018-09-28
申请号:CN201810368909.0
申请日:2018-04-23
Applicant: 北京交通大学
Abstract: 本发明提供了一种基于汉字字形结构性信息的词向量优化方法。该方法包括:获取待处理词语的分布式词向量;根据所述待处理词语所包含的汉字进行词语的词形特征表示,获取待处理词语的词形特征向量;将所述待处理词语的词形特征向量和分布式词向量进行结合表示,得到待处理词语的优化特征向量。本发明设计了一种利用汉语字形结构信息进行词向量表达优化的方案,利用原有的神经网络词分布式表达技术,结合汉语的字形结构特征,基于实际的自然语言处理任务进行了词向量的特性优化,使得词向量的表达能力和泛化迁移能力得到加强,有助于改善词向量在低频词和未知词上的词特征表示。
-