-
公开(公告)号:CN108304571A
公开(公告)日:2018-07-20
申请号:CN201810154155.9
申请日:2018-02-22
Applicant: 湘潭大学
IPC: G06F17/30
Abstract: 本发明涉及一种基于粒子模型话题分析的网络舆情分析方法,采用分布式集群的方式运行nutch网络爬虫获取当前互联网网页数据,并经过自然语言处理后将所有的网站数据进行分词并得到每一个特征词的权值,创建特征词权值表。AC自动机对特征词权值表通过特征词的相互匹配从而求得每一个特征词出现的频率进而获得特征词的IDF权值以及样本相互间根据特征词的关联系数。最终在剔除互联网网站数据的众多噪声点后,对有意义的网站样本按照讨论话题的不同分成多个话题簇。再将簇内的网站样本按照其重要性排序,通过反馈机制得到该话题簇的主题和最能代表该主题的样本,最后将这些样本展示给用户。
-
公开(公告)号:CN108304571B
公开(公告)日:2020-10-09
申请号:CN201810154155.9
申请日:2018-02-22
Applicant: 湘潭大学
IPC: G06F16/951 , G06F16/906 , G06Q50/00
Abstract: 本发明涉及一种基于粒子模型话题分析的网络舆情分析方法,采用分布式集群的方式运行nutch网络爬虫获取当前互联网网页数据,并经过自然语言处理后将所有的网站数据进行分词并得到每一个特征词的权值,创建特征词权值表。AC自动机对特征词权值表通过特征词的相互匹配从而求得每一个特征词出现的频率进而获得特征词的IDF权值以及样本相互间根据特征词的关联系数。最终在剔除互联网网站数据的众多噪声点后,对有意义的网站样本按照讨论话题的不同分成多个话题簇。再将簇内的网站样本按照其重要性排序,通过反馈机制得到该话题簇的主题和最能代表该主题的样本,最后将这些样本展示给用户。
-