-
公开(公告)号:CN117113351B
公开(公告)日:2024-02-20
申请号:CN202311345558.9
申请日:2023-10-18
Applicant: 广东省科技基础条件平台中心 , 暨南大学
IPC: G06F21/56 , G06F40/126 , G06F8/53
Abstract: 本发明公开了一种基于多重多级预训练的软件分类方法及设备,所述方法包括:对二进制软件进行反汇编得到反汇编代码文本;对反汇编代码文本进行预处理,并从预处理后的反汇编代码文本中筛选出用户定义函数,得到类反汇编代码文本并输入到文本表征生成模块,得到文本表征;基于二进制软件中的字节统计特征、PE文件统计特征,以及反汇编代码文本中的反汇编统计特征,确定统计特征向量并输入至统计表征生成模块,得到统计表征;对文本表征和统计表征进行融合处理,得到样本表征并输入至分类网络模型,得到二进制软件的代码分类识别结果。本发明能够实现高精度的软件分类。
-
公开(公告)号:CN115795466B
公开(公告)日:2023-06-20
申请号:CN202310067439.5
申请日:2023-02-06
Applicant: 广东省科技基础条件平台中心 , 暨南大学
IPC: G06F21/56
Abstract: 本发明公开了一种恶意软件组织识别方法及设备,该方法包括:获取待识别的当前恶意软件样本;对当前恶意软件样本进行预处理,提取其属性信息和特征表示向量,并存储到样本特征数据集中;根据当前恶意软件样本的特征表示向量,使用预先训练好的恶意软件组织识别模型进行识别,获得组织识别结果;根据样本特征数据集中的各个恶意软件样本的属性信息,将样本特征数据集中的各个恶意软件样本划分为新样本数据集和旧样本数据集,以检测样本是否发生概念偏移;若是则将当前恶意软件样本的组织识别结果更新到样本特征数据集中,并采用更新后样本特征数据集重新训练恶意软件组织识别模型,可以克服恶意软件样本在现实中可能存在的概念漂移问题。
-
公开(公告)号:CN115795466A
公开(公告)日:2023-03-14
申请号:CN202310067439.5
申请日:2023-02-06
Applicant: 广东省科技基础条件平台中心 , 暨南大学
IPC: G06F21/56
Abstract: 本发明公开了一种恶意软件组织识别方法及设备,该方法包括:获取待识别的当前恶意软件样本;对当前恶意软件样本进行预处理,提取其属性信息和特征表示向量,并存储到样本特征数据集中;根据当前恶意软件样本的特征表示向量,使用预先训练好的恶意软件组织识别模型进行识别,获得组织识别结果;根据样本特征数据集中的各个恶意软件样本的属性信息,将样本特征数据集中的各个恶意软件样本划分为新样本数据集和旧样本数据集,以检测样本是否发生概念偏移;若是则将当前恶意软件样本的组织识别结果更新到样本特征数据集中,并采用更新后样本特征数据集重新训练恶意软件组织识别模型,可以克服恶意软件样本在现实中可能存在的概念漂移问题。
-
公开(公告)号:CN117113351A
公开(公告)日:2023-11-24
申请号:CN202311345558.9
申请日:2023-10-18
Applicant: 广东省科技基础条件平台中心 , 暨南大学
IPC: G06F21/56 , G06F40/126 , G06F8/53
Abstract: 本发明公开了一种基于多重多级预训练的软件分类方法及设备,所述方法包括:对二进制软件进行反汇编得到反汇编代码文本;对反汇编代码文本进行预处理,并从预处理后的反汇编代码文本中筛选出用户定义函数,得到类反汇编代码文本并输入到文本表征生成模块,得到文本表征;基于二进制软件中的字节统计特征、PE文件统计特征,以及反汇编代码文本中的反汇编统计特征,确定统计特征向量并输入至统计表征生成模块,得到统计表征;对文本表征和统计表征进行融合处理,得到样本表征并输入至分类网络模型,得到二进制软件的代码分类识别结果。本发明能够实现高精度的软件分类。
-
公开(公告)号:CN114047929A
公开(公告)日:2022-02-15
申请号:CN202210029556.8
申请日:2022-01-12
Applicant: 广东省科技基础条件平台中心 , 暨南大学
Abstract: 本发明公开了一种基于知识增强的用户定义函数识别方法、装置及介质,包括:对用户定义函数的反汇编文本进行预处理和划分处理,获得训练数据集;对其操作码进行词嵌入,生成词向量;将词向量输入Transformer模型,获取经过初始预训练过的Transformer模型;对预设数量阈值的词向量进行遮罩处理;将所有词向量输入到经过初始预训练过的Transformer模型,输出词向量的编码结果并将其作为反汇编文本的编码特征信息,将统计特征转换为三通道的图像以获取反汇编文本的统计特征信息,并将统计特征信息和编码特征信息进行拼接,输入全连接神经网络中,得到用户定义函数分类模型。本发明实施例能够准确识别用户定义函数。
-
公开(公告)号:CN114047929B
公开(公告)日:2022-05-03
申请号:CN202210029556.8
申请日:2022-01-12
Applicant: 广东省科技基础条件平台中心 , 暨南大学
Abstract: 本发明公开了一种基于知识增强的用户定义函数识别方法、装置及介质,包括:对用户定义函数的反汇编文本进行预处理和划分处理,获得训练数据集;对其操作码进行词嵌入,生成词向量;将词向量输入Transformer模型,获取经过初始预训练过的Transformer模型;对预设数量阈值的词向量进行遮罩处理;将所有词向量输入到经过初始预训练过的Transformer模型,输出词向量的编码结果并将其作为反汇编文本的编码特征信息,将统计特征转换为三通道的图像以获取反汇编文本的统计特征信息,并将统计特征信息和编码特征信息进行拼接,输入全连接神经网络中,得到用户定义函数分类模型。本发明实施例能够准确识别用户定义函数。
-
-
-
-
-