Patent search ap:("武汉大学") AND inv:"李亚波" Page 1

1.

发明授权
一种针对网页结构变化的不间断爬虫系统构建方法失效

公开(公告)号：CN103942335B

公开(公告)日：2017-04-26

申请号：CN201410190386.7

申请日：2014-05-07

Applicant: 武汉大学

Inventor： 刘金硕 , 张智 , 邓娟 , 邓莹莹 , 陈嘉敏 , 彭映月 , 李亚波 , 徐亚渤

IPC: G06F17/30

Abstract: 本发明公开了一种针对网页结构变化的不间断爬虫系统构建方法，本发明在数据抽取的过程中，并不依赖于具体的标签节点，而是通过计算的方法来寻找目标节点；利用节点剪枝和相似哈希的方法锁定标题节点；然后，迭代计算相关节点的上下文主题相关度值TTR，得到目标抽取模块的节点；最后，使用正则表达式以及库匹配的方法实现对时间和新闻来源的信息的获取，在库匹配的过程中，使用了库动态增长的方法；同时，在目标抽取节点下的剩余节点中，过滤掉所有噪声节点，便得到网页文本的正文信息；本发明提供的技术方法主要应用于舆情监测系统中，对其他用途的网络爬虫具有一定参考价值。

2.

发明公开
一种针对网页结构变化的不间断爬虫系统构建方法失效

公开(公告)号：CN103942335A

公开(公告)日：2014-07-23

申请号：CN201410190386.7

申请日：2014-05-07

Applicant: 武汉大学

Inventor： 刘金硕 , 张智 , 邓娟 , 邓莹莹 , 陈嘉敏 , 彭映月 , 李亚波 , 徐亚渤

IPC: G06F17/30

CPC classification number: G06F17/30864

Abstract: 本发明公开了一种针对网页结构变化的不间断爬虫系统构建方法，本发明在数据抽取的过程中，并不依赖于具体的标签节点，而是通过计算的方法来寻找目标节点；利用节点剪枝和相似哈希的方法锁定标题节点；然后，迭代计算相关节点的上下文主题相关度值TTR，得到目标抽取模块的节点；最后，使用正则表达式以及库匹配的方法实现对时间和新闻来源的信息的获取，在库匹配的过程中，使用了库动态增长的方法；同时，在目标抽取节点下的剩余节点中，过滤掉所有噪声节点，便得到网页文本的正文信息；本发明提供的技术方法主要应用于舆情监测系统中，对其他用途的网络爬虫具有一定参考价值。

Patent Agency Ranking