一种面向双语微博文本的多类情感分析方法与系统

    公开(公告)号:CN104331506A

    公开(公告)日:2015-02-04

    申请号:CN201410670909.8

    申请日:2014-11-20

    CPC classification number: G06F17/30705 G06F17/2705

    Abstract: 本发明涉及一种面向双语微博文本的多类情感分析方法与系统,属于微博文本情感分析技术领域,包括以下步骤:(1)双语词典构建:首先收集一定规模具有情感倾向的语料,并从语料中提取出具有情感倾向的高频词汇;然后用已有知识库和词汇相似度计算模型对情感词典进行扩展;最后在情感词典中加入网络语言和表情符号;(2)文本预处理:对待识别文本进行分词并去除停用词以及英文词形规范化处理;(3)文本特征空间表示:利用所述双语情感词典对文本进行向量化;(4)利用多情感分类模型实现语料文本的情感识别任务。本发明方法的准确率和F1值高于传统的分类方法,特别是半监督高斯混合模型分类算法在小规模训练集下的分类效果明显优于其他方法。

Patent Agency Ranking