一种爬取贴文过程中的数据排重方法及终端

    公开(公告)号:CN114238732A

    公开(公告)日:2022-03-25

    申请号:CN202111312377.7

    申请日:2021-11-08

    Abstract: 本发明公开一种爬取贴文过程中的数据排重方法,通过当前链接接收页面数据的同时获取数据中的多组关键字段,并将多组关键字段组合并生成与页面数据对应的第一关键值,当内网中存在与当前数据的第一关键值相同的另一第一关键值时,表示当前数据为重复数据,将其排除,实现第一次排重;然后再获取当前链接信息,当前链接信息与预设的关键字段组合并生成与页面数据对应的第二关键值,当内网中不存在与当前第二关键值相同的另一第二关键值时,则判断为新数据,否则判断为重复数据,实现第二次排重;通过比较第一关键值和第二关键值对接收数据进行两次排重,极大降低了从外网爬取到相同数据的可能性,降低爬取数据过程中数据的重复率。

Patent Agency Ranking