-
公开(公告)号:CN109886020B
公开(公告)日:2020-02-04
申请号:CN201910068001.2
申请日:2019-01-24
Applicant: 燕山大学
IPC: G06F21/56 , G06F21/57 , G06F40/289 , G06F40/216 , G06F40/247 , G06N3/04 , G06N3/08
Abstract: 本申请提供一种基于深度神经网络的软件漏洞自动分类方法,包括:S1,对漏洞信息进行预处理后形成词集列表;S2,对样本漏洞描述信息集合使用TF‑IDF算法和IG算法对每个词的权重进行计算,获取重要特征词集列表;S3,根据重要特征词集列表生成词向量空间,把每一条漏洞描述信息表述成一个m维的向量,m是重要特征词集中特征词的数量;S4,使用DNN模型获得软件漏洞分类器;S5,新的漏洞描述信息集合进行分类。本发明基于TF‑IDF和IG算法构建深度神经网络漏洞自动分类模型,降低了高维词向量空间的维度,能够适应不断更新的软件漏洞数据集,有效地处理词向量空间的高维性和稀疏性,在准确率、召回率、精度等多维评价指标中表现出较好性能。
-
公开(公告)号:CN110348227B
公开(公告)日:2021-01-29
申请号:CN201910634705.1
申请日:2019-07-15
Applicant: 燕山大学
Abstract: 本发明提供一种软件漏洞的分类方法及系统。所述分类方法使用Skip‑gram语言模型进行漏洞词向量的训练和生成,将每条漏洞文本中的词映射到有限维度的空间中,以此表征语义信息,降低了词向量的稀疏性,然后充分利用卷积神经网络和循环神经网络提取特征和表征语义信息的优势,构建了C‑GRU神经网络模型,利用卷积神经网络提取文本向量的局部特征,利用GRU提取与文本上下文相关的全局特征,将两种互补模型提取的特征进行融合。本发明克服了基于机器学习算法漏洞自动分类方法在处理高维和稀疏问题上表现的效果不是很好,而且不能很好地提取文本特征和表征语义信息,同时忽略了特定的漏洞信息的技术缺陷,提高了软件分类准确性。
-
公开(公告)号:CN109886020A
公开(公告)日:2019-06-14
申请号:CN201910068001.2
申请日:2019-01-24
Applicant: 燕山大学
Abstract: 本申请提供一种基于深度神经网络的软件漏洞自动分类方法,包括:S1,对漏洞信息进行预处理后形成词集列表;S2,对样本漏洞描述信息集合使用TF-IDF算法和IG算法对每个词的权重进行计算,获取重要特征词集列表;S3,根据重要特征词集列表生成词向量空间,把每一条漏洞描述信息表述成一个m维的向量,m是重要特征词集中特征词的数量;S4,使用DNN模型获得软件漏洞分类器;S5,新的漏洞描述信息集合进行分类。本发明基于TF-IDF和IG算法构建深度神经网络漏洞自动分类模型,降低了高维词向量空间的维度,能够适应不断更新的软件漏洞数据集,有效地处理词向量空间的高维性和稀疏性,在准确率、召回率、精度等多维评价指标中表现出较好性能。
-
公开(公告)号:CN110348227A
公开(公告)日:2019-10-18
申请号:CN201910634705.1
申请日:2019-07-15
Applicant: 燕山大学
Abstract: 本发明提供一种软件漏洞的分类方法及系统。所述分类方法使用Skip-gram语言模型进行漏洞词向量的训练和生成,将每条漏洞文本中的词映射到有限维度的空间中,以此表征语义信息,降低了词向量的稀疏性,然后充分利用卷积神经网络和循环神经网络提取特征和表征语义信息的优势,构建了C-GRU神经网络模型,利用卷积神经网络提取文本向量的局部特征,利用GRU提取与文本上下文相关的全局特征,将两种互补模型提取的特征进行融合。本发明克服了基于机器学习算法漏洞自动分类方法在处理高维和稀疏问题上表现的效果不是很好,而且不能很好地提取文本特征和表征语义信息,同时忽略了特定的漏洞信息的技术缺陷,提高了软件分类准确性。
-
公开(公告)号:CN109977028A
公开(公告)日:2019-07-05
申请号:CN201910274407.6
申请日:2019-04-08
Applicant: 燕山大学
Abstract: 本发明公开了一种基于遗传算法和随机森林的软件缺陷预测方法,包括以下步骤:对软件缺陷数据集的各个子集进行数据预处理;基于遗传算法和随机森林算法进行特征选择;构建随机森林分类器;软件缺陷预测,利用处理后的软件缺陷数据集训练随机森林分类器,经过多测实验得到分类效果较优的随机森林分类器,然后将经过处理后的软件缺陷测试集输入到训练好的分类器中,最终获得测试集的分类结果。本发明很好地适应有差异性和类别不平衡的软件缺陷数据集;将遗传算法和随机森林算法相结合用于特征选择,达到很好的降维效果。使用基于决策树的集成算法,各自独立地学习并做出预测,将这些预测结果结合起来得到最终的预测结果。
-
-
-
-