网页爬取方法、装置、设备及计算机程序

    公开(公告)号:CN115269949A

    公开(公告)日:2022-11-01

    申请号:CN202110478522.2

    申请日:2021-04-29

    Abstract: 本发明公开了一种网页爬取方法、装置、设备及计算机程序,通过获取从目标网址中爬取的图像,调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像,对第一目标图像进行文字识别,以获得第一目标图像的文字信息;存储第一目标图像的文字信息和目标网址,对获取到的图像进行筛选,从而可以过滤掉广告等与网页内容无关的图像,降低了数据存储量,提升了数据质量;同时,基于图像学习模型对图像进行筛选,提升了筛选精度;并且,存储从第一目标图像中识别出的文字信息和目标网址,使得可以基于文字信息查找到目标网址从而查找到第一目标图像,从而方便用户查找图像,还进一步降低了数据存储量,提升了数据的质量。

Patent Agency Ranking