-
公开(公告)号:CN109783526A
公开(公告)日:2019-05-21
申请号:CN201910029926.6
申请日:2019-01-10
Applicant: 华南理工大学 , 覃思建筑工程技术咨询(广州)有限公司
IPC: G06F16/2457 , G06F16/248 , G06F17/27
Abstract: 本发明公开了一种基于专家论文大数据的研究热点分析方法,包括以下步骤:S1、根据关键词,以知识数据库为数据源进行论文搜索,并抓取论文标题、发表时间、作者、数据来源这些开放性数据;S2、根据下载的论文标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出热点词汇列表;S3、通过专业论文日常用词语料库匹配排除法,将热点词汇列表中的日常用词删除,得出专业词汇列表;S4、对专业词汇列表进行词频分析,并以词频降序排列,选取前百位数据得到专业词汇词频总表;S5、增加年份数据,在专业词汇词频总表的基础上,根据不同年份列出词频分表,得出以时间为轴线的关注点变化趋势。
-
公开(公告)号:CN109783815B
公开(公告)日:2020-10-23
申请号:CN201910022183.X
申请日:2019-01-10
Applicant: 华南理工大学 , 覃思建筑工程技术咨询(广州)有限公司
IPC: G06F40/30 , G06F40/284 , G06F16/951 , G06F16/953 , G06F16/9535 , G06F16/33
Abstract: 本发明公开了一种多维度网络舆情大数据对比分析方法,所述方法在双关键词搜索的基础上,对下载的网站进行自定义,分为三类不同数据来源进行全文搜索和数据采集,并对相关文章标题进行语义分析,经过分词、词频排序、新闻文本日常用词语料库匹配排除,得出有效的新闻热点专业词汇列表,并对不同数据来源的新闻热点专业词汇列表进行对比分析。采用互联网新闻文本大数据分析得出的词频数据,其样本量巨大,具有较高真实性和客观性,代表政府部门、公众群体观点,能够弥补传统的访谈和问卷调查方法数据样本量较小和取样随机性不足的缺陷,可以为进一步的公众观点主观评价分析提供数据参考。
-
公开(公告)号:CN109783815A
公开(公告)日:2019-05-21
申请号:CN201910022183.X
申请日:2019-01-10
Applicant: 华南理工大学 , 覃思建筑工程技术咨询(广州)有限公司
IPC: G06F17/27 , G06F16/951 , G06F16/953 , G06F16/9535 , G06F16/33
Abstract: 本发明公开了一种多维度网络舆情大数据对比分析方法,所述方法在双关键词搜索的基础上,对下载的网站进行自定义,分为三类不同数据来源进行全文搜索和数据采集,并对相关文章标题进行语义分析,经过分词、词频排序、新闻文本日常用词语料库匹配排除,得出有效的新闻热点专业词汇列表,并对不同数据来源的新闻热点专业词汇列表进行对比分析。采用互联网新闻文本大数据分析得出的词频数据,其样本量巨大,具有较高真实性和客观性,代表政府部门、公众群体观点,能够弥补传统的访谈和问卷调查方法数据样本量较小和取样随机性不足的缺陷,可以为进一步的公众观点主观评价分析提供数据参考。
-
-