-
公开(公告)号:CN108763348B
公开(公告)日:2022-05-03
申请号:CN201810460923.3
申请日:2018-05-15
Applicant: 南京邮电大学
IPC: G06F16/35 , G06F16/33 , G06F16/335
Abstract: 本发明涉及一种扩展短文本词特征向量的分类改进方法,该方法引入了Word2vec语言模型对短文本进行词嵌入扩展短文本特征向量以解决短文本稀疏性,并将词向量转换成概率语义分布来测量语义关联性;针对短文本扩展后的特征向量,利用改进后的特征权重算法并引入语义相关度去处理扩展后的词特征向量。本方法可以区分出扩展后的短文本中的词的重要程度,以获得更准确的语义相关度,可以有效地提高短文本的分类效果。实验证明,本文的方法能够保证短文本挖掘特征向量准确性的同时,更大大的提高了短文本分类的精确性,效果显著。可用于热点话题分类挖掘、监测舆情信息等各种领域决策方向中,具有较强的实用价值。
-
公开(公告)号:CN108763348A
公开(公告)日:2018-11-06
申请号:CN201810460923.3
申请日:2018-05-15
Applicant: 南京邮电大学
IPC: G06F17/30
Abstract: 本发明涉及一种扩展短文本词特征向量的分类改进方法,该方法引入了Word2vec语言模型对短文本进行词嵌入扩展短文本特征向量以解决短文本稀疏性,并将词向量转换成概率语义分布来测量语义关联性;针对短文本扩展后的特征向量,利用改进后的特征权重算法并引入语义相关度去处理扩展后的词特征向量。本方法可以区分出扩展后的短文本中的词的重要程度,以获得更准确的语义相关度,可以有效地提高短文本的分类效果。实验证明,本文的方法能够保证短文本挖掘特征向量准确性的同时,更大大的提高了短文本分类的精确性,效果显著。可用于热点话题分类挖掘、监测舆情信息等各种领域决策方向中,具有较强的实用价值。
-