一种基于改进的KNN文本分类方法

    公开(公告)号:CN104408095B

    公开(公告)日:2017-12-05

    申请号:CN201410650756.0

    申请日:2014-11-15

    Abstract: 本发明提供了一种基于改进的KNN文本分类方法,首先对训练文本进行预处理并计算每个训练样本的特征向量,构建训练集的特征向量空间模型;然后定义密度和距离,将整个样本空间按类型定义为多个球形区和离群点,并存储为训练集库;在进行测试时,首先判断待测文本是否落入某个球形区,根据对应标号判断其类别,否则,离群点和每个球形的中心点作为训练集库,调用KNN算法,判断待测试文本的类别。本发明提供的方法在兼顾分类速度、分类准确度以及对数据倾斜敏感度的同时,能够较好的应用于非球形分布的分类问题,尤其适合具有高维特征向量,分布不规则特征的文本分类问题。

Patent Agency Ranking