-
公开(公告)号:CN102214241B
公开(公告)日:2013-02-13
申请号:CN201110187138.3
申请日:2011-07-05
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明涉及一种基于图聚类的用户生成文本流中的突发话题检测方法,属于互联网数据挖掘技术领域。该方法提供了相对传统的话题检测问题的一种基于图的新视角,将在文本流中检测突发话题转化为一个典型的图聚类问题,这样可以根据已有的图论方法来得到解决。该方法主要步骤包括:获取文本流;检测突发词;构建突发词图;聚类突发词。该方法针对用户生成文本流中的突发话题检测,其性能优于已有的基于文档聚类、概率话题模型和基于突发特征聚类的方法。
-
公开(公告)号:CN102214241A
公开(公告)日:2011-10-12
申请号:CN201110187138.3
申请日:2011-07-05
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明涉及一种基于图聚类的用户生成文本流中的突发话题检测方法,属于互联网数据挖掘技术领域。该方法提供了相对传统的话题检测问题的一种基于图的新视角,将在文本流中检测突发话题转化为一个典型的图聚类问题,这样可以根据已有的图论方法来得到解决。该方法主要步骤包括:获取文本流;检测突发词;构建突发词图;聚类突发词。该方法针对用户生成文本流中的突发话题检测,其性能优于已有的基于文档聚类、概率话题模型和基于突发特征聚类的方法。
-