业务数据抓取方法和系统

    公开(公告)号:CN103399908A

    公开(公告)日:2013-11-20

    申请号:CN201310325804.4

    申请日:2013-07-30

    Abstract: 本申请公开了业务数据抓取方法和系统,该方法为:配置抓取操作时所需要的规则数据;读取所述规则数据,根据该规则数据建立网页资源抓取任务,将抓取的网页资源按照配置规则分类进行存储;针对抓取到的所述网页资源建立数据解析任务,对抓取的所述网页资源通过解析HTML文档获取需要的资源URI,同时过滤数据不完整的资源;建立资源下载任务,对解析获取到的所述资源URI使用断点续传的方式下载,获得所述资源数据;根据采集到的所述资源数据的完整性进行存储或重新抓取,并在所述抓取操作无法正常结束时发送报告信息。本申请解决了数据采集时花费大量的资源而且不能通过配置相关的信息获取业务数据的问题。

    业务数据抓取方法和系统

    公开(公告)号:CN103399908B

    公开(公告)日:2017-02-08

    申请号:CN201310325804.4

    申请日:2013-07-30

    Abstract: 本申请公开了业务数据抓取方法和系统,该方法为:配置抓取操作时所需要的规则数据;读取所述规则数据,根据该规则数据建立网页资源抓取任务,将抓取的网页资源按照配置规则分类进行存储;针对抓取到的所述网页资源建立数据解析任务,对抓取的所述网页资源通过解析HTML文档获取需要的资源URI,同时过滤数据不完整的资源;建立资源下载任务,对解析获取到的所述资源URI使用断点续传的方式下载,获得所述资源数据;根据采集到的所述资源数据的完整性进行存储或重新抓取,并在所述抓取操作无法正常结束时发送报告信息。本申请解决了数据采集时花费大量的资源而且不能通过配置相关的信息获取业务数据的问题。

Patent Agency Ranking