基于小样本学习的恶意流量分类方法、系统、设备及介质

    公开(公告)号:CN117034124B

    公开(公告)日:2024-02-23

    申请号:CN202311279415.2

    申请日:2023-10-07

    Inventor: 唐上 路冰 刘洋洋

    Abstract: 本申请公开了一种基于小样本学习的恶意流量分类方法、系统、设备及介质,主要涉及恶意流量分类技术领域,用以解决现有的方法将数据裁剪成统一长度,使得很多会话被填充了,导致预处理后的数据很稀疏、当测试集的分类数目发生变化时,需要重新划分元训练集和元测试集,使得模型不够灵活且在跨域数据集上表现不理想、容易受样本不均衡影响的问题。包括:获取原始流量PCAP文件会话,基于预设字节长度阈值获得会话的最终字节,生成会话数据集;基于会话数据集中的未知标签数据集,获得预设嵌入函数对应的最优参数;基于会话数据集中的已知标签训练数据集,完成线性分类器中参数的训练;确定获得基于小样本学习的恶意流量分类器。(56)对比文件韩国栋;黄雅静;王孝龙.非平衡网络流量识别方法.计算机应用.2018,(第01期),全文.熊祖涛.基于增量学习SVM的Android恶意应用检测方法.嘉应学院学报.2016,(第05期),全文.

    基于小样本学习的恶意流量分类方法、系统、设备及介质

    公开(公告)号:CN117034124A

    公开(公告)日:2023-11-10

    申请号:CN202311279415.2

    申请日:2023-10-07

    Inventor: 唐上 路冰 刘洋洋

    Abstract: 本申请公开了一种基于小样本学习的恶意流量分类方法、系统、设备及介质,主要涉及恶意流量分类技术领域,用以解决现有的方法将数据裁剪成统一长度,使得很多会话被填充了,导致预处理后的数据很稀疏、当测试集的分类数目发生变化时,需要重新划分元训练集和元测试集,使得模型不够灵活且在跨域数据集上表现不理想、容易受样本不均衡影响的问题。包括:获取原始流量PCAP文件会话,基于预设字节长度阈值获得会话的最终字节,生成会话数据集;基于会话数据集中的未知标签数据集,获得预设嵌入函数对应的最优参数;基于会话数据集中的已知标签训练数据集,完成线性分类器中参数的训练;确定获得基于小样本学习的恶意流量分类器。

    一种用于实时加密恶意流量识别的方法及设备

    公开(公告)号:CN115296937B

    公开(公告)日:2023-04-18

    申请号:CN202211223891.8

    申请日:2022-10-09

    Abstract: 本申请公开了一种用于实时加密恶意流量识别的方法及设备,主要涉及恶意流量识别技术领域,用以解决现有的识别模型无法识别新出现的特征值以及训练集中良性样本与恶意样本极不均衡等问题。包括:基于预设提取字段和预设流量四元组,从PACP文件中获取流数据;批量处理若干PACP文件,获得CSV文件;将流数据中的object类型数据转换为数值型数据;得到组合特征;获取纯恶意标记的流数据;以通过预设样本扩充算法,获取第一恶意样本数据;进而通过恶意样本数据和预设为良性标记的流数据,完成预设恶意识别算法的训练。本申请通过上述方法实现了顾及新出现的特征值、实现了训练集中良性样本与恶意样本的均衡。

    一种用于实时加密恶意流量识别的方法及设备

    公开(公告)号:CN115296937A

    公开(公告)日:2022-11-04

    申请号:CN202211223891.8

    申请日:2022-10-09

    Abstract: 本申请公开了一种用于实时加密恶意流量识别的方法及设备,主要涉及恶意流量识别技术领域,用以解决现有的识别模型无法识别新出现的特征值以及训练集中良性样本与恶意样本极不均衡等问题。包括:基于预设提取字段和预设流量四元组,从PACP文件中获取流数据;批量处理若干PACP文件,获得CSV文件;将流数据中的object类型数据转换为数值型数据;得到组合特征;获取纯恶意标记的流数据;以通过预设样本扩充算法,获取第一恶意样本数据;进而通过恶意样本数据和预设为良性标记的流数据,完成预设恶意识别算法的训练。本申请通过上述方法实现了顾及新出现的特征值、实现了训练集中良性样本与恶意样本的均衡。

    一种基于行为词嵌入的用户分类方法及系统

    公开(公告)号:CN115269636A

    公开(公告)日:2022-11-01

    申请号:CN202210944098.0

    申请日:2022-08-05

    Abstract: 本公开属于数据库安全检测技术领域,具体涉及一种基于行为词嵌入的用户分类方法及系统,包括:获取并解析SQL语句数据;对解析后的SQL语句数据进行词向量训练,得到SQL语句向量;对所得到的SQL语句向量进行聚类分析,预测所述SQL语句向量的所属部门;将预测得到的SQL语句向量的所属部门与所获取的SQL语句数据的所属部门进行对比,完成用户分类。

Patent Agency Ranking