-
公开(公告)号:CN118646588A
公开(公告)日:2024-09-13
申请号:CN202410908967.3
申请日:2024-07-08
Applicant: 中科天玑数据科技股份有限公司
IPC: H04L9/40
Abstract: 本发明提供一种基于用户行为的爬虫用户识别方法,包括第一次认证用户,访问页面或访问接口设置验证信息,获取设备ID的请求记录,将请求记录异常的设备ID标记为爬虫;第二次认证用户,设置埋点信息获取设备ID或IP地址的行为日志,进而获取设备ID或IP地址在每个埋点处的行为模式,将行为模式异常的设备ID或IP地址标记为爬虫;应对措施,判断特征库内设备ID或IP地址是否被标记,若是,限制设备ID或IP地址的访问频率、屏蔽请求或引导至验证码页面,否,允许正常访问,将设备ID的行为特征更新至特征库。本发明能够有效区分正常用户和爬虫,从而在不影响正常用户体验的同时,保护网络资源和数据安全。
-
公开(公告)号:CN118797193A
公开(公告)日:2024-10-18
申请号:CN202410779240.X
申请日:2024-06-17
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F16/955
Abstract: 本发明提供一种网页列表页链接识别方法,包括获取网页列表的html文档,通过xpath将html文档转换成Dom树;所述Dom树包括若干主体,从Dom树的根为起始遍历主体以筛选主体中包含预设标签的链接url,提取并构成链接组;两两组合链接组内链接url,依据链接url内包含字符串种类和数量将其转换成向量数组,使用余弦相似度定理计算两数组的相似度,依据相似度是否超过阈值判断两链接url是否相似,相似度高的链接url保留至链接组;依据关键词过滤链接url,输出符合规则的链接。本发明通过余弦相似度算法对链接识别进行优化,能够对不同网页列表页链接的高效、准确识别,提高了识别的准确率和适应性。
-