-
公开(公告)号:CN116384366A
公开(公告)日:2023-07-04
申请号:CN202310073668.8
申请日:2023-01-31
Applicant: 珠海高凌信息科技股份有限公司
IPC: G06F40/194 , G06F40/143 , G06F16/951 , G06F18/22 , G06F18/214 , G06F18/241 , G06F18/25
Abstract: 本申请公开了一种基于架构同源算法的有害信息检测方法、装置和存储介质,本申请的方法包括爬取网页内容;对前端html进行网页基本特征提取;将所述网页基本特征进行比对,根据比对结果计算网页标签树相似度;根据所述网页标签树相似度判断网页内容是否存在有害信息。本申请使用一种新的基于架构同源理论的网页监测技术,当具备大量已标注样本后,无论实在互联网网址的检测准确率还是效率方面,在基于有害样本网页样本的基础上,其表现优于其他的处理模式。