-
公开(公告)号:CN114090775A
公开(公告)日:2022-02-25
申请号:CN202111376161.7
申请日:2021-11-19
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 天津市国瑞数码安全系统股份有限公司
Inventor: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 李高翔 , 黄福鸿 , 卓采标 , 廖淑敏 , 杨慧强 , 宋宜昌 , 黄正国 , 周毅 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC: G06F16/35 , G06F16/33 , G06F16/951 , G06F16/957
Abstract: 本发明属于网页文本处理领域,具体涉及一种基于BERT算法的网页有害文本识别方法及系统,所述识别方法包括:步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对初始文本进行文本整理,得到待识别文本集合;步骤3:将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;步骤4:对识别结果进行人工验证,并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本,利用已有的有害文本判断模型实现网页文本内容识别,同时还通过人工校正对有害文本判断模型进行训练更新,进一步提升有害文本判断模型的准确性。
-
公开(公告)号:CN114143290B
公开(公告)日:2024-01-30
申请号:CN202111407941.3
申请日:2021-11-19
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 天津市国瑞数码安全系统股份有限公司
Inventor: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 黄福鸿 , 李高翔 , 卓采标 , 杨慧强 , 廖淑敏 , 宋宜昌 , 周毅 , 黄正国 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC: H04L61/5061 , H04L61/5007 , H04L61/5053 , H04L67/56 , G06F16/951
Abstract: 本发明属于IP代理技术领域,具体涉及一种多网站并行爬取的IP代理池的构建系统和方法,所述构建系统包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。上述构建系统构建了多网站并行爬取代理池,实现了多网站并行爬取,进而提高代理IP的利用率以及爬取成功率。
-
公开(公告)号:CN114143290A
公开(公告)日:2022-03-04
申请号:CN202111407941.3
申请日:2021-11-19
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 天津市国瑞数码安全系统股份有限公司
Inventor: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 黄福鸿 , 李高翔 , 卓采标 , 杨慧强 , 廖淑敏 , 宋宜昌 , 周毅 , 黄正国 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC: H04L61/5061 , H04L61/5007 , H04L61/5053 , H04L67/56 , G06F16/951
Abstract: 本发明属于IP代理技术领域,具体涉及一种多网站并行爬取的IP代理池的构建系统和方法,所述构建系统包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。上述构建系统构建了多网站并行爬取代理池,实现了多网站并行爬取,进而提高代理IP的利用率以及爬取成功率。
-
-