一种自定义动态扩展的暗网爬虫系统

    公开(公告)号:CN109902212A

    公开(公告)日:2019-06-18

    申请号:CN201910071997.2

    申请日:2019-01-25

    Abstract: 本发明公开了一种自定义动态扩展的暗网爬虫系统,包括:网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;爬虫线程模块,负责执行各类网页爬虫过程;爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。本发明保证了爬虫系统可用可维护性。动态加载tor代理池方式实现多站点页面并行下载,提高了爬虫系统完成爬取任务的时间效率。采用负载均衡代理池管理模块,对各tor代理的爬虫下载网页任务数量进行实时监控与均衡分配,实现了各tor代理的最大化使用。

Patent Agency Ranking