-
公开(公告)号:CN107066530A
公开(公告)日:2017-08-18
申请号:CN201710116830.4
申请日:2017-03-01
Applicant: 苏州朗动网络科技有限公司
CPC classification number: G06F16/9566 , G06F16/951 , H04L67/1002
Abstract: 本发明公开了一种数据刷新系统及数据刷新方法,其中的数据刷新系统包括中央服务器、两个以上的节点服务器和数据库;中央服务器包括:参数配置模块、URL队列生成模块、URL读取模块;参数配置模块设置请求参数;URL队列生成模块根据请求参数生成URL队列;URL读取模块读取URL队列内的URL,并将URL发送至各节点服务器;节点服务器中部署有爬虫程序,爬虫程序依据URL进行数据抓取,并将抓取的数据放入数据库。本发明提供的数据刷新系统具有两个以上的节点服务器,能够有效提高数据更新速度。通过URL读取模块,将URL分散均衡发送至各节点服务器,可以有效降低节点服务器的运行压力。URL队列生成模块用于生成URL队列,能够有效降低高并发量导致的系统崩溃。
-
公开(公告)号:CN106844774A
公开(公告)日:2017-06-13
申请号:CN201710117081.7
申请日:2017-03-01
Applicant: 苏州朗动网络科技有限公司
IPC: G06F17/30
CPC classification number: G06F16/951
Abstract: 一种基于C#抓取互联网公开数据的爬虫系统及抓取方法,属于数据采集领域;所述爬虫系统包括爬虫程序模块,所述爬虫程序模块用于浏览、抓取与校验数据;服务器,所述服务器数量为至少两台,其内均部署有爬虫程序模块;目标站,所述爬虫程序模块在确定的所述目标站上浏览、抓取数据;非关系型数据库,所述非关系型数据库用于存储所述爬虫程序模块抓取的有效数据;还包括第三方接口,用于外接验证码识别破解程序模块。本发明所述爬虫系统可外接验证码识别破解程序模块,支持多种验证码破解,能够更好更快的访问目标站;支持部署到多台服务器,减少服务器的负载压力,运行、存储更多数据;支持NOSQL数据存储,读取的速度得到大幅度提升。
-
公开(公告)号:CN110677510A
公开(公告)日:2020-01-10
申请号:CN201910856334.1
申请日:2019-09-11
Applicant: 苏州朗动网络科技有限公司
IPC: H04L29/12
Abstract: 本发明揭示了一种IP代理池的管理方法、设备和存储介质,所述方法包括:获取代理IP;使用所述代理IP访问不同类型的URL站点,并根据访问结果记录所述代理IP的用途类型;根据所述代理IP的用途类型,将所述代理IP存入对应用途类型的代理池中。与现有技术相比,本发明通过将不同用途的代理IP放入不同的代理池中,从而应用程序根据站点的访问需要到对应用途的代理池中获取代理IP,提高应用程序的执行效率。
-
-