-
公开(公告)号:CN104598532A
公开(公告)日:2015-05-06
申请号:CN201410837198.9
申请日:2014-12-29
Applicant: 中国联合网络通信有限公司广东省分公司 , 北京亚信智慧数据科技有限公司
Abstract: 本发明实施例公开了一种信息处理方法及装置,所述方法包括:解析预先获取的超文本标记语言HTML文档集,提取所述HTML文档集包含的文本数据集;对所述文本数据集进行分词处理,获取文本分词表;对所述文本分词表中的各个词汇进行词频分析,构建文本向量空间矩阵;消除所述文本向量空间矩阵中的离散点文本向量,并获取消除离散点文本向量后的所述文本向量空间矩阵中各个文本向量间的文本相似度矩阵;根据所述文本相似度矩阵,对所述文本数据集进行话题聚类。本发明实施例可以实现准确地构建词表,并在消除离散点后再进行话题聚类,从而提高了话题聚类的速度和准确度。