一种基于深度学习的钓鱼网站URL检测方法

    公开(公告)号:CN109101552B

    公开(公告)日:2022-01-28

    申请号:CN201810750707.2

    申请日:2018-07-10

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于深度学习的钓鱼网站URL检测方法,该方法仅根据网站URL就能够实时检测互联网上的钓鱼网站。本发明首先将URL字符串序列编码成one‑hot二维稀疏矩阵,接着转化为稠密字符嵌入矩阵,输入到卷积神经网络中,抽取局部深度特征,然后将卷积神经网络的输出输入到长短期记忆网络,捕获URL序列的前后关联,最后接入softmax模型,对URL分类。本发明能避免繁冗的特征工程,通过卷积神经网络抽取局部深度关联性特征,通过长短期记忆网络学习URL中的长程依赖,能快速、准确地检测出钓鱼网站URL。

    一种基于深度学习的钓鱼网站URL检测方法

    公开(公告)号:CN109101552A

    公开(公告)日:2018-12-28

    申请号:CN201810750707.2

    申请日:2018-07-10

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于深度学习的钓鱼网站URL检测方法,该方法仅根据网站URL就能够实时检测互联网上的钓鱼网站。本发明首先将URL字符串序列编码成one-hot二维稀疏矩阵,接着转化为稠密字符嵌入矩阵,输入到卷积神经网络中,抽取局部深度特征,然后将卷积神经网络的输出输入到长短期记忆网络,捕获URL序列的前后关联,最后接入softmax模型,对URL分类。本发明能避免繁冗的特征工程,通过卷积神经网络抽取局部深度关联性特征,通过长短期记忆网络学习URL中的长程依赖,能快速、准确地检测出钓鱼网站URL。

    一种基于多特征融合的钓鱼网站检测方法

    公开(公告)号:CN108777674B

    公开(公告)日:2021-02-26

    申请号:CN201810373630.1

    申请日:2018-04-24

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于多特征融合的钓鱼网站检测方法,该方法能够实时检测互联网上的钓鱼网站。本发明首先根据网页的URL提取URL特征、HTML特征和基于TF‑IDF的文本向量;然后利用Logistic回归(Logistic regression)对文本向量进行分类,构建Logistic回归特征,并与网页URL特征和HTML特征进行多特征融合;最后训练XGBoost(eXtreme gradient boosting)模型,对待测钓鱼网站进行分类预测。本发明在网站的URL基础上,从多个维度全方位提取多关键特征,采用Logistic回归特征融合方法,有效解决文本向量特征维度过高问题,比现有特征融合方法能大幅提高运行效率,而且XGBoost分类模型比传统分类模型,更能提高钓鱼网站检测准确率,减少钓鱼网站检测漏报率。

    一种基于多特征融合的钓鱼网站检测方法

    公开(公告)号:CN108777674A

    公开(公告)日:2018-11-09

    申请号:CN201810373630.1

    申请日:2018-04-24

    Applicant: 东南大学

    CPC classification number: H04L63/1483 H04L41/147

    Abstract: 本发明公开了一种基于多特征融合的钓鱼网站检测方法,该方法能够实时检测互联网上的钓鱼网站。本发明首先根据网页的URL提取URL特征、HTML特征和基于TF-IDF的文本向量;然后利用Logistic回归(Logistic regression)对文本向量进行分类,构建Logistic回归特征,并与网页URL特征和HTML特征进行多特征融合;最后训练XGBoost(eXtreme gradient boosting)模型,对待测钓鱼网站进行分类预测。本发明在网站的URL基础上,从多个维度全方位提取多关键特征,采用Logistic回归特征融合方法,有效解决文本向量特征维度过高问题,比现有特征融合方法能大幅提高运行效率,而且XGBoost分类模型比传统分类模型,更能提高钓鱼网站检测准确率,减少钓鱼网站检测漏报率。

Patent Agency Ranking