基于预训练语言模型的钓鱼URL检测方法及系统

    公开(公告)号:CN115994224A

    公开(公告)日:2023-04-21

    申请号:CN202310105616.4

    申请日:2023-01-29

    Abstract: 本发明公开一种基于训练语言模型的钓鱼URL检测方法及系统,方法包括:获取URL数据源,构建URL语料库;构建URL分词系统,训练URL分词系统及初始化词嵌入,得到URL初始化子词向量;构建多层网络编码器,基于三元组掩码对多层网络编辑器进行训练,得到模糊掩码语言模型;对模糊掩码语言模型进行微调处理以得到钓鱼URL检测任务模型;将待测URL输入至所述钓鱼URL检测任务模型中,得到检测结果。本发明具有极高的钓鱼网站检测成功率,公开数据评估上识别率达到99%以上;只需要将原始的URL送入到模型中,模型会自动地执行分词、生成词向量、特征提取以及训练;本发明的模型使得准确率提高本发明的模糊掩码语言模型,能够减小预训练的难度。

Patent Agency Ranking