一种自定义动态扩展的暗网爬虫系统

    公开(公告)号:CN109902212A

    公开(公告)日:2019-06-18

    申请号:CN201910071997.2

    申请日:2019-01-25

    Abstract: 本发明公开了一种自定义动态扩展的暗网爬虫系统,包括:网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;爬虫线程模块,负责执行各类网页爬虫过程;爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。本发明保证了爬虫系统可用可维护性。动态加载tor代理池方式实现多站点页面并行下载,提高了爬虫系统完成爬取任务的时间效率。采用负载均衡代理池管理模块,对各tor代理的爬虫下载网页任务数量进行实时监控与均衡分配,实现了各tor代理的最大化使用。

    一种基于域名生成算法的Tor地址发现方法

    公开(公告)号:CN118101617B

    公开(公告)日:2024-07-05

    申请号:CN202410459894.4

    申请日:2024-04-17

    Abstract: 本发明提供一种基于域名生成算法的Tor地址发现方法,属于Tor网络技术领域,解决了现有发现方法的局限性问题;方法包括:获取已有的Tor地址,将其构造为数据集,通过对Tor地址的切割,得到多个数据子集;计算统计每个Tor地址中字符元素的出现概率,生成概率集,并针对每个数据子集计算概率子集,通过概率子集反映Tor地址每一位上出现字母或数字的概率;结合概率集与概率子集,生成多个地址子集,随机选取各个地址子集中的对应元素,按序拼接为地址集中新的Tor地址;通过主动连接的方式验证地址集中的Tor地址的有效性,记录有效的Tor地址;本发明顺利扩展了Tor地址的发现方式,拓宽了Tor网络的监控范围。

    一种基于域名生成算法的Tor地址发现方法

    公开(公告)号:CN118101617A

    公开(公告)日:2024-05-28

    申请号:CN202410459894.4

    申请日:2024-04-17

    Abstract: 本发明提供一种基于域名生成算法的Tor地址发现方法,属于Tor网络技术领域,解决了现有发现方法的局限性问题;方法包括:获取已有的Tor地址,将其构造为数据集,通过对Tor地址的切割,得到多个数据子集;计算统计每个Tor地址中字符元素的出现概率,生成概率集,并针对每个数据子集计算概率子集,通过概率子集反映Tor地址每一位上出现字母或数字的概率;结合概率集与概率子集,生成多个地址子集,随机选取各个地址子集中的对应元素,按序拼接为地址集中新的Tor地址;通过主动连接的方式验证地址集中的Tor地址的有效性,记录有效的Tor地址;本发明顺利扩展了Tor地址的发现方式,拓宽了Tor网络的监控范围。

Patent Agency Ranking