-
公开(公告)号:CN101430708A
公开(公告)日:2009-05-13
申请号:CN200810217630.9
申请日:2008-11-21
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F17/30
Abstract: 本发明涉及一种基于标签聚类的博客层次分类树构建方法。所述方法包括步骤:第一、初始化并输入预先定义的博客层次分类树和由标签关系数据构造的邻接矩阵;第二、调用标签聚类算法对标签关系数据进行聚类,由此生成数个标签簇;第三、运用主题泛化算法从各个标签簇中提取一个或多个关键标签词作为其主题;第四步:在标签簇还能进一步聚类时,递归调用第二步和第三步;第五步:每一次递归调用结束后都在博客层次分类树中构建新的层次以及增加新的主题节点;第六、递归终止条件完全满足后,输出构造好的博客层次分类树。本方法是针对博客数据的检索、挖掘和浏览等问题提出的,能够快速组织海量博客数据的主题层次关系,并具有较高的效率和准确率。