-
公开(公告)号:CN104391835B
公开(公告)日:2017-09-29
申请号:CN201410521030.7
申请日:2014-09-30
Applicant: 中南大学
Abstract: 本发明提供了一种文本中特征词选择方法及装置,其中该方法包括利用评价函数FCD确定总文本中候选特征词的重要性值,其中,该评价函数FCD为根据候选特征词的平均频度ATF、候选特征词的隶属度μ计算得到的,平均频度ATF为候选特征词在预定文本类别中平均出现的次数,隶属度μ为候选特征词对预定文本类别的隶属度;根据确定的候选特征词的重要性值,从候选特征词中选择预定数量的特征词。通过本发明,解决了相关技术中存在的文本分类系统在非均衡数据集情况下分类性能较差的问题,进而达到了提高文本分类器的性能的效果。
-
公开(公告)号:CN104391835A
公开(公告)日:2015-03-04
申请号:CN201410521030.7
申请日:2014-09-30
Applicant: 中南大学
Abstract: 本发明提供了一种文本中特征词选择方法及装置,其中该方法包括利用评价函数FCD确定总文本中候选特征词的重要性值,其中,该评价函数FCD为根据候选特征词的平均频度ATF、候选特征词的隶属度μ计算得到的,平均频度ATF为候选特征词在预定文本类别中平均出现的次数,隶属度μ为候选特征词对预定文本类别的隶属度;根据确定的候选特征词的重要性值,从候选特征词中选择预定数量的特征词。通过本发明,解决了相关技术中存在的文本分类系统在非均衡数据集情况下分类性能较差的问题,进而达到了提高文本分类器的性能的效果。
-