-
公开(公告)号:CN103617169A
公开(公告)日:2014-03-05
申请号:CN201310501234.X
申请日:2013-10-23
Applicant: 杭州电子科技大学
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明提出了一种基于Hadoop的微博热点话题挖掘方法。本发明首先组建一个局域网,安装相应的软件搭建Hadoop的平台;其次采集微博信息;第三,对采集的微博内容进行分词处理、噪音信息过滤、出现频率变化较大的热门关键词抽取;第四根据提取出每个潜在热门话题的特征词组;第五循环遍历潜在的热门话题,合并相似度超过阈值的话题;最后对提取出来的热点话题,以特征词组中最热门关键词的爆发得分作为话题的热度,将热点话题按热度值从高到低次序显示。本发明利用Hadoop框架中MapReduce运算模型的特点,能够准确地判断出微博的热门话题,使挖掘结果更能反映互联网舆论的客观事实,有较强的可扩展性和容错性。
-
公开(公告)号:CN103617169B
公开(公告)日:2017-04-05
申请号:CN201310501234.X
申请日:2013-10-23
Applicant: 杭州电子科技大学
IPC: G06F17/30
Abstract: 本发明提出了一种基于Hadoop的微博热点话题挖掘方法。本发明首先组建一个局域网,安装相应的软件搭建Hadoop的平台;其次采集微博信息;第三,对采集的微博内容进行分词处理、噪音信息过滤、出现频率变化较大的热门关键词抽取;第四根据提取出每个潜在热门话题的特征词组;第五循环遍历潜在的热门话题,合并相似度超过阈值的话题;最后对提取出来的热点话题,以特征词组中最热门关键词的爆发得分作为话题的热度,将热点话题按热度值从高到低次序显示。本发明利用Hadoop框架中MapReduce运算模型的特点,能够准确地判断出微博的热门话题,使挖掘结果更能反映互联网舆论的客观事实,有较强的可扩展性和容错性。
-