一种基于Heritrix爬虫的分布式采集方法及系统

    公开(公告)号:CN105515815A

    公开(公告)日:2016-04-20

    申请号:CN201410555223.4

    申请日:2014-10-17

    Abstract: 本发明公开了一种基于Heritrix爬虫的分布式采集方法及系统,包括以下步骤:设置一个管理服务模块以及多个发布的Heritrix节点,管理服务模块监听到Heriteix节点信息后自动加入该节点并进行管理,初始种子以及节点任务,分配任务并生成配置文件;管理服务模块获取实际种子,Heritrix从实际种子的配置文件中获取实际种子,并从实际种子采集实际种子对应网页上生成的链接以及该链接对应的附加信息,Heritrix自动判别并抽取出满足条件的链接生成初始种子队列,Heritrix节点从初始种子获得实际种子信息,并解析其附加信息实施本发明的有益效果是,本申请有效实现了Heritrix的分布式采集,有效提高了系统工作系能。

    一种基于Heritrix爬虫的分布式采集方法及系统

    公开(公告)号:CN105515815B

    公开(公告)日:2018-11-06

    申请号:CN201410555223.4

    申请日:2014-10-17

    Abstract: 本发明公开了一种基于Heritrix爬虫的分布式采集方法及系统,包括以下步骤:设置一个管理服务模块以及多个发布的Heritrix节点,管理服务模块监听到Heritrix节点信息后自动加入该节点并进行管理,初始种子以及节点任务,分配任务并生成配置文件;管理服务模块获取实际种子,Heritrix从实际种子的配置文件中获取实际种子,并从实际种子采集实际种子对应网页上生成的链接以及该链接对应的附加信息,Heritrix自动判别并抽取出满足条件的链接生成初始种子队列,Heritrix节点从初始种子获得实际种子信息,并解析其附加信息实施本发明的有益效果是,本申请有效实现了Heritrix的分布式采集,有效提高了系统工作系能。

    一种面向网页采集任务的插件管理方法及其装置

    公开(公告)号:CN104765592A

    公开(公告)日:2015-07-08

    申请号:CN201410004005.1

    申请日:2014-01-03

    Abstract: 本发明公开了一种面向网页采集任务的插件管理方法及其装置,该方法包括以下步骤:在一网页内选中任意的网页内容,根据所述网页内容生成与所述网页内容对应的抽取规则,同时,根据所述抽取规则生成与所述抽取规则对应的插件;对所述插件进行测试,当所述插件通过测试后,加载所述插件完成网页内容的采集操作,同时,管理所述插件的使用权限,并对所述插件采取相应的维护操作。实施本发明,通过结合Java脚本语言优势,以及现有的版本控制服务器,提高插件的开发效率,实现插件的自动化管理,从而大大降低插件开发和插件维护的成本。同时,在插件开发时,无需重启程序即可以支持插件的动态重复加载,在插件管理时,管理操作更为安全、便捷。

Patent Agency Ranking