-
公开(公告)号:CN106844748A
公开(公告)日:2017-06-13
申请号:CN201710083729.3
申请日:2017-02-16
Applicant: 湖北文理学院
CPC classification number: G06F16/355 , G06K9/6215
Abstract: 本发明涉及一种文本聚类方法、装置及电子设备。该文本聚类方法,包括:将多个不同主题的原始文档集合并为一个文档并集。将文档并集中的文档进行升序排列,得到升序文档并集。依次计算升序文档并集中的第一个文档与其之后的所有文档的相似度,若相似度大于或等于第一阈值,将该文档与该第一个文档归属于一类,若小于第一阈值,则将该文档记为未归类文档。依次执行升序文档并集中未归类文档中第一个文档与它之后的所有未归类文档的相似度计算及分类。该文本聚类方法、装置及电子设备避免了分词、特征提取等操作,步骤简单,准确率高,具备语言无关性,适用于各种语言的文本聚类。并且,聚类速度和精度可灵活调整,以满足不同的实际需求。