一种基于文本聚类的主题词提取方法

    公开(公告)号:CN112749279A

    公开(公告)日:2021-05-04

    申请号:CN202110060987.6

    申请日:2021-01-18

    Inventor: 肖林焱 杨安印

    Abstract: 本发明公开了一种基于文本聚类的主题词提取方法,对文本信息进行分词处理;对干扰词积累形成停用词库,加载文本分词集合;针对处理词文档,计算文档词频TF,计算逆文档词频IDF;新建Kmeans模型,训练出各聚类中心词频及其预测值,使用余弦相似度计算文本词之间相似度;输出Kmeans聚类结果,每个聚类集合;对各个聚类集合进行LDA文档主题预测;针对文档到词的权重分布,提取TOPN主题,形成集合Mi;针对集合Mi,分词后的文本记录词库与集合Mi碰撞。本发明通过多方联合分析,对无监督学习主题提取方法进行有益补充;不依赖现有数据分析平台,适用于各类编程语言;结合Kmeans聚类方法,LDA主题模型分析,个性化碰撞规则,对大数据文本主题词提取进行有效支撑。

Patent Agency Ranking