-
公开(公告)号:CN108446275A
公开(公告)日:2018-08-24
申请号:CN201810234144.1
申请日:2018-03-21
Applicant: 北京理工大学
Abstract: 本发明涉及基于注意力双层LSTM的长文本情感倾向性分析方法,属于自然语言处理与机器学习领域。主要为了解决长文本评论篇幅长,正负情感特征离散分布且每个句子的情感语义贡献度不同,导致难以准确判断全文情感倾向的问题。本发明首先利用LSTM学习句子级情感向量表示;然后采用双向LSTM对文档中所有句子的情感语义及句子间的语义关系进行编码,并基于注意力机制对具有不同情感语义贡献度的句子进行权值分配;最后,加权句子级情感向量表示得到长文本的文档级情感向量表示,经过Softmax层得到长文本情感倾向。在Yelp2015和IMDb电影评论语料上实验,结果表明本发明能达到较好的分类效果,进一步提升了情感分类的正确率。
-
公开(公告)号:CN108376133A
公开(公告)日:2018-08-07
申请号:CN201810234391.1
申请日:2018-03-21
Applicant: 北京理工大学
Abstract: 本发明涉及基于情感词扩充的短文本情感分类方法,属于计算机与信息科学技术领域。本发明首先将评论文本切分成句子集合,利用jieba分词工具进行分词和词性标注,得到预处理结果;其次,针对每一条短文本评论,用维基百科语料训练Glove获得每个词语的词向量,利用词向量计算其他词语与词性为N、V、Adj和Adv的初始情感特征的语义相似度,将语义相近的词扩充至初始情感特征集;然后提出DF-TF-MI,利用词语间统计特征改进传统特征降维方法进行特征降维,得到低维的特征集,再经过情感特征加权;最后将得到的特征向量通过由弱分类器加权组成的RADA算法进行情感倾向性分类。本发明解决了情感词典存在未登录词的问题,同时有效解决了短文本评论有效情感词少导致情感特征稀疏的问题,提升了情感倾向性分析的性能及准确率。
-