-
公开(公告)号:CN117370629A
公开(公告)日:2024-01-09
申请号:CN202310951909.4
申请日:2023-07-31
Applicant: 南通大学
IPC: G06F16/951 , G06F40/216 , G06F40/289 , G06F16/31 , G06Q50/00
Abstract: 本发明公开了一种评论高频词定向爬虫方法,针对网页端复杂的json加密方式,采用去自动化标志设置,规避了对自动化工具监测,同时使用Selenium自动化工具进行登录等待并且项目创新性地书写了detection()函数进行滑块检测,接着利用Xpath技术对网页元素进行解析并通过改变页面滚动方式进行用户行为模拟,成功爬取评论,最后本发明结合jieba分词技术,能够对爬取的评论信息进行高频词的统计和提炼,有助于深度挖掘争议热点事件的舆论倾向。该评论高频词定向爬虫方法具有较高的实用性和创新性,能够高效获取评论信息,并为舆论分析和舆情研究提供有力支持。