基于知识增强的用户定义函数识别方法、装置及介质

    公开(公告)号:CN114047929B

    公开(公告)日:2022-05-03

    申请号:CN202210029556.8

    申请日:2022-01-12

    Abstract: 本发明公开了一种基于知识增强的用户定义函数识别方法、装置及介质,包括:对用户定义函数的反汇编文本进行预处理和划分处理,获得训练数据集;对其操作码进行词嵌入,生成词向量;将词向量输入Transformer模型,获取经过初始预训练过的Transformer模型;对预设数量阈值的词向量进行遮罩处理;将所有词向量输入到经过初始预训练过的Transformer模型,输出词向量的编码结果并将其作为反汇编文本的编码特征信息,将统计特征转换为三通道的图像以获取反汇编文本的统计特征信息,并将统计特征信息和编码特征信息进行拼接,输入全连接神经网络中,得到用户定义函数分类模型。本发明实施例能够准确识别用户定义函数。

    一种基于多重多级预训练的软件分类方法及设备

    公开(公告)号:CN117113351B

    公开(公告)日:2024-02-20

    申请号:CN202311345558.9

    申请日:2023-10-18

    Abstract: 本发明公开了一种基于多重多级预训练的软件分类方法及设备,所述方法包括:对二进制软件进行反汇编得到反汇编代码文本;对反汇编代码文本进行预处理,并从预处理后的反汇编代码文本中筛选出用户定义函数,得到类反汇编代码文本并输入到文本表征生成模块,得到文本表征;基于二进制软件中的字节统计特征、PE文件统计特征,以及反汇编代码文本中的反汇编统计特征,确定统计特征向量并输入至统计表征生成模块,得到统计表征;对文本表征和统计表征进行融合处理,得到样本表征并输入至分类网络模型,得到二进制软件的代码分类识别结果。本发明能够实现高精度的软件分类。

    基于平稳多臂老虎机的代码对抗样本生成方法

    公开(公告)号:CN117093997B

    公开(公告)日:2024-02-20

    申请号:CN202311360685.6

    申请日:2023-10-20

    Abstract: 本发明公开了一种基于平稳多臂老虎机的代码对抗样本生成方法,包括:获取代码数据集,并创建多个代理对象;从代码数据集中获取一个第一代码样本;通过代码对抗样本生成模型中的攻击器,基于多个代理对象进行代理采样和代理投票处理,确定注入动作,并将注入动作注入第一代码样本,得到第二代码样本;对第二代码样本进行逃逸检测,并将逃逸成功的第二代码样本加入对抗样本集;在进行逃逸检测后,当第二代码样本不满足结束条件时,返回至获取第一代码样本的步骤获取新的第一代码样本,以进行迭代,直至获取到的新的第二代码样本满足结束条件时停止迭代,并获取停止迭代后的对抗样本集,本发明能够高效生成大量高质量的代码对抗样本。

    一种恶意软件组织识别方法及设备

    公开(公告)号:CN115795466B

    公开(公告)日:2023-06-20

    申请号:CN202310067439.5

    申请日:2023-02-06

    Abstract: 本发明公开了一种恶意软件组织识别方法及设备,该方法包括:获取待识别的当前恶意软件样本;对当前恶意软件样本进行预处理,提取其属性信息和特征表示向量,并存储到样本特征数据集中;根据当前恶意软件样本的特征表示向量,使用预先训练好的恶意软件组织识别模型进行识别,获得组织识别结果;根据样本特征数据集中的各个恶意软件样本的属性信息,将样本特征数据集中的各个恶意软件样本划分为新样本数据集和旧样本数据集,以检测样本是否发生概念偏移;若是则将当前恶意软件样本的组织识别结果更新到样本特征数据集中,并采用更新后样本特征数据集重新训练恶意软件组织识别模型,可以克服恶意软件样本在现实中可能存在的概念漂移问题。

    一种恶意软件组织识别方法及设备

    公开(公告)号:CN115795466A

    公开(公告)日:2023-03-14

    申请号:CN202310067439.5

    申请日:2023-02-06

    Abstract: 本发明公开了一种恶意软件组织识别方法及设备,该方法包括:获取待识别的当前恶意软件样本;对当前恶意软件样本进行预处理,提取其属性信息和特征表示向量,并存储到样本特征数据集中;根据当前恶意软件样本的特征表示向量,使用预先训练好的恶意软件组织识别模型进行识别,获得组织识别结果;根据样本特征数据集中的各个恶意软件样本的属性信息,将样本特征数据集中的各个恶意软件样本划分为新样本数据集和旧样本数据集,以检测样本是否发生概念偏移;若是则将当前恶意软件样本的组织识别结果更新到样本特征数据集中,并采用更新后样本特征数据集重新训练恶意软件组织识别模型,可以克服恶意软件样本在现实中可能存在的概念漂移问题。

    一种基于对比学习的恶意软件鲁棒识别方法

    公开(公告)号:CN115310083A

    公开(公告)日:2022-11-08

    申请号:CN202210805144.9

    申请日:2022-07-08

    Abstract: 本发明为一种基于对比学习的恶意软件鲁棒识别方法,公开一种恶意软件组织(或家族)的端到端鲁棒识别技术,该技术实施过程包含训练阶段和测试阶段。在训练阶段,使用卷积神经网络模型MConv,结合三大模块(对抗训练模块、对比学习模块、KL散度模块)对MConv进行基于对比学习的对抗训练。在测试阶段,使用MConv和全连接层进行样本识别。本发明充分考虑恶意软件逃逸组织识别的可能性,针对目的为了逃逸的对抗攻击可能性,更符合网络空间的现实需求,更具有现实应用的发明意义,且在各评估指标上显示该方法能达到良好的识别和抵御对抗攻击的效果。

    一种基于多重多级预训练的软件分类方法及设备

    公开(公告)号:CN117113351A

    公开(公告)日:2023-11-24

    申请号:CN202311345558.9

    申请日:2023-10-18

    Abstract: 本发明公开了一种基于多重多级预训练的软件分类方法及设备,所述方法包括:对二进制软件进行反汇编得到反汇编代码文本;对反汇编代码文本进行预处理,并从预处理后的反汇编代码文本中筛选出用户定义函数,得到类反汇编代码文本并输入到文本表征生成模块,得到文本表征;基于二进制软件中的字节统计特征、PE文件统计特征,以及反汇编代码文本中的反汇编统计特征,确定统计特征向量并输入至统计表征生成模块,得到统计表征;对文本表征和统计表征进行融合处理,得到样本表征并输入至分类网络模型,得到二进制软件的代码分类识别结果。本发明能够实现高精度的软件分类。

    基于平稳多臂老虎机的代码对抗样本生成方法

    公开(公告)号:CN117093997A

    公开(公告)日:2023-11-21

    申请号:CN202311360685.6

    申请日:2023-10-20

    Abstract: 本发明公开了一种基于平稳多臂老虎机的代码对抗样本生成方法,包括:获取代码数据集,并创建多个代理对象;从代码数据集中获取一个第一代码样本;通过代码对抗样本生成模型中的攻击器,基于多个代理对象进行代理采样和代理投票处理,确定注入动作,并将注入动作注入第一代码样本,得到第二代码样本;对第二代码样本进行逃逸检测,并将逃逸成功的第二代码样本加入对抗样本集;在进行逃逸检测后,当第二代码样本不满足结束条件时,返回至获取第一代码样本的步骤获取新的第一代码样本,以进行迭代,直至获取到的新的第二代码样本满足结束条件时停止迭代,并获取停止迭代后的对抗样本集,本发明能够高效生成大量高质量的代码对抗样本。

    基于知识增强的用户定义函数识别方法、装置及介质

    公开(公告)号:CN114047929A

    公开(公告)日:2022-02-15

    申请号:CN202210029556.8

    申请日:2022-01-12

    Abstract: 本发明公开了一种基于知识增强的用户定义函数识别方法、装置及介质,包括:对用户定义函数的反汇编文本进行预处理和划分处理,获得训练数据集;对其操作码进行词嵌入,生成词向量;将词向量输入Transformer模型,获取经过初始预训练过的Transformer模型;对预设数量阈值的词向量进行遮罩处理;将所有词向量输入到经过初始预训练过的Transformer模型,输出词向量的编码结果并将其作为反汇编文本的编码特征信息,将统计特征转换为三通道的图像以获取反汇编文本的统计特征信息,并将统计特征信息和编码特征信息进行拼接,输入全连接神经网络中,得到用户定义函数分类模型。本发明实施例能够准确识别用户定义函数。

    一种基于层次注意力网络模型的恶意软件分类方法

    公开(公告)号:CN112668009A

    公开(公告)日:2021-04-16

    申请号:CN202110107338.7

    申请日:2021-01-27

    Applicant: 暨南大学

    Abstract: 本发明公开了一种基于层次注意力网络模型的恶意软件分类方法,其中包括对恶意软件PE样本进行反汇编,对应的获取汇编代码文件;从所述汇编代码文件中提取操作码序列,生成操作码序列文档;对所述操作码序列文档中的每一个操作码进行词嵌入,即生成词向量;将操作码序列文档送入层次注意力网络模型,输出注意力权重矩阵和分类结果;根据注意力权重矩阵对操作码序列进行图片可视化,通过权重矩阵的权重值大小对应的颜色深浅说明每个操作码、每个操作码序列对于分类的重要性。本方法能够在自动分类的同时,找出对于分类起贡献作用的操作码序列从而提供分类依据。该方法在测试集上的准确率达到96.96%,说明该方法识别效果十分良好。

Patent Agency Ranking