-
公开(公告)号:CN115994224A
公开(公告)日:2023-04-21
申请号:CN202310105616.4
申请日:2023-01-29
Applicant: 浙江大学杭州国际科创中心
IPC: G06F16/35 , G06F40/284 , G06F40/242 , G06F40/216 , G06N3/0455 , G06N3/048 , G06N3/0895 , H04L9/40
Abstract: 本发明公开一种基于训练语言模型的钓鱼URL检测方法及系统,方法包括:获取URL数据源,构建URL语料库;构建URL分词系统,训练URL分词系统及初始化词嵌入,得到URL初始化子词向量;构建多层网络编码器,基于三元组掩码对多层网络编辑器进行训练,得到模糊掩码语言模型;对模糊掩码语言模型进行微调处理以得到钓鱼URL检测任务模型;将待测URL输入至所述钓鱼URL检测任务模型中,得到检测结果。本发明具有极高的钓鱼网站检测成功率,公开数据评估上识别率达到99%以上;只需要将原始的URL送入到模型中,模型会自动地执行分词、生成词向量、特征提取以及训练;本发明的模型使得准确率提高本发明的模糊掩码语言模型,能够减小预训练的难度。