信息抓取方法及装置
    2.
    发明公开

    公开(公告)号:CN105447184A

    公开(公告)日:2016-03-30

    申请号:CN201510938034.X

    申请日:2015-12-15

    CPC classification number: G06F16/951

    Abstract: 本发明实施例提供一种信息抓取方法及装置。统计信息网站列表,并将所述信息网站对应的列表页保存在第一数据库中的列表页数据库,其中,所述列表页中保存有所述信息网站与对应的URL地址的对照关系;从所述第一数据库中读取所述列表页的内容,抓取符合预设抓取策略的所述详情页链接地址并将所述抓取后的所述详情页链接地址保存在所述第一数据库中的详情页数据库;将所述详情页链接地址分配到不同的抓取机器上进行抓取,并将抓取得到的网页详情数据保存在第二数据库中;根据所述第一数据库中的数据库状态码从所述第二数据库中抓取出相应的所述网页详情数据,并抽取目标字段,保存为目标格式。实现了信息抓取的实时性、高效性以及智能性。

    信息抓取方法及装置
    3.
    发明授权

    公开(公告)号:CN105447184B

    公开(公告)日:2019-06-11

    申请号:CN201510938034.X

    申请日:2015-12-15

    Abstract: 本发明实施例提供一种信息抓取方法及装置。统计信息网站列表,并将所述信息网站对应的列表页保存在第一数据库中的列表页数据库,其中,所述列表页中保存有所述信息网站与对应的URL地址的对照关系;从所述第一数据库中读取所述列表页的内容,抓取符合预设抓取策略的所述详情页链接地址并将所述抓取后的所述详情页链接地址保存在所述第一数据库中的详情页数据库;将所述详情页链接地址分配到不同的抓取机器上进行抓取,并将抓取得到的网页详情数据保存在第二数据库中;根据所述第一数据库中的数据库状态码从所述第二数据库中抓取出相应的所述网页详情数据,并抽取目标字段,保存为目标格式。实现了信息抓取的实时性、高效性以及智能性。

Patent Agency Ranking