-
公开(公告)号:CN101770580A
公开(公告)日:2010-07-07
申请号:CN200910076428.3
申请日:2009-01-04
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种跨领域的文本情感分类器的训练方法,包括下列步骤:1)在源领域和新领域样本的关键词中挑选通用情感特征;2)根据源领域的样本,计算特征wt属于类别ck的样本的概率P(t|ck),以及类别ck的概率P(ck),进而计算新领域的样本di属于类别ck的概率P(ck|di);3)基于EM迭代方法训练所述分类器,其中在M步根据源领域和新领域样本以及所述通用情感特征重新计算所述P(t|ck)和所述P(ck),在E步根据重新计算的所述P(t|ck)和所述P(ck)重新计算所述P(ck|di)。根据本发明的文本情感分类方法对新领域的文本进行分类的精度较高。