Patent search ap:("浙江大学杭州国际科创中心") AND inv:"朱微凡" Page 1

1.

发明公开
基于预训练语言模型的钓鱼URL检测方法及系统审中-实审

公开(公告)号：CN115994224A

公开(公告)日：2023-04-21

申请号：CN202310105616.4

申请日：2023-01-29

Applicant: 浙江大学杭州国际科创中心

Inventor： 许海涛 , 朱微凡 , 王延斌 , 秦湛 , 任奎

IPC: G06F16/35 , G06F40/284 , G06F40/242 , G06F40/216 , G06N3/0455 , G06N3/048 , G06N3/0895 , H04L9/40

Abstract: 本发明公开一种基于训练语言模型的钓鱼URL检测方法及系统，方法包括：获取URL数据源，构建URL语料库；构建URL分词系统，训练URL分词系统及初始化词嵌入，得到URL初始化子词向量；构建多层网络编码器，基于三元组掩码对多层网络编辑器进行训练，得到模糊掩码语言模型；对模糊掩码语言模型进行微调处理以得到钓鱼URL检测任务模型；将待测URL输入至所述钓鱼URL检测任务模型中，得到检测结果。本发明具有极高的钓鱼网站检测成功率，公开数据评估上识别率达到99％以上；只需要将原始的URL送入到模型中，模型会自动地执行分词、生成词向量、特征提取以及训练；本发明的模型使得准确率提高本发明的模糊掩码语言模型，能够减小预训练的难度。

Patent Agency Ranking