-
公开(公告)号:CN116302953A
公开(公告)日:2023-06-23
申请号:CN202310034262.9
申请日:2023-01-10
Applicant: 南通大学
IPC: G06F11/36
Abstract: 本发明提供了一种基于增强嵌入向量语义表示的软件缺陷定位方法,属于计算机技术领域,解决了多模态嵌入向量语义信息表示不足的技术问题。其技术方案为:包括以下步骤:S1:对源代码进行数据增强;S2:构造模态之间和模态内部的正负样本对;S3:对缺陷报告进行文本预处理,得到文本序列;S4:文本序列输入CodeBert预训练模型得到嵌入向量表示;S5:学习模态内部和模态之间的相似性;S6:联合检索任务和二元分类任务微调预训练模型。S7:对源代码文件进行排序得到预测结果。本发明的有益效果为:通过对比学习,获得更好的嵌入向量表示,联合检索模型和分类模型对源代码文件进行排序,进一步提高缺陷定位的有效性。
-
公开(公告)号:CN115729741A
公开(公告)日:2023-03-03
申请号:CN202211484631.6
申请日:2022-11-24
Applicant: 南通大学
IPC: G06F11/07 , G06F18/25 , G06F18/2431 , G06N3/045
Abstract: 本发明提供了一种融合多维度特征的自动定位安全补丁方法的方法,其技术方案为:包括以下步骤:S1:通过挖掘GitHub、CVE和NVD库,从中收集漏洞和代码提交的数据集并进行预处理操作;S2:使用GumTree工具提取漏洞描述的专家特征取值;S3:使用T5预训练模型提取漏洞描述和提交信息的深层语义特征取值,并使用BERT‑whitening来进一步处理语义向量取值,通过线性变换进行关键特征提取和降维;S4:对构建的数据集随机划分成训练集、验证集和测试集;S5:使用决策树模型预测最终结果。本发明的有益效果为:从数据集中提取更加丰富的特征,从而提高安全补丁定位的质量和可靠性。
-
公开(公告)号:CN115617689A
公开(公告)日:2023-01-17
申请号:CN202211357801.4
申请日:2022-11-01
Applicant: 南通大学
IPC: G06F11/36 , G06F40/194 , G06F40/216 , G06F40/284 , G06F40/30 , G06F18/22 , G06F18/213 , G06F18/2415 , G06F18/25 , G06N3/0464
Abstract: 本发明提出了一种基于CNN模型和领域特征的软件缺陷定位方法,属于计算机技术领域。解决了缺陷定位方法不能充分使用代码结构和语义特征的问题。其技术方案为:包括以下步骤:S1、对数据集进行预处理;S2、通过Word2Vec生成词向量;S3、使用CNN网络分别提取词汇特征和代码结构特征,并通过MLP网络进行特征融合;S4、利用rVSM提取文本相似性;S5、从bug修复历史中提取4种类型的特征;S6、构造数据集,按比例划分训练集和测试集;S7、将步骤S2、步骤S3、步骤S4提取出的6种特征输入MLP网络;S8:通过softmax函数得到二分类结果。本发明的有益效果为:本发明采用学习统一的词汇语义和代码结构特征,同时融合文本相似性特征和缺陷修复历史从而提高缺陷定位的质量和可靠性。
-
公开(公告)号:CN115185732A
公开(公告)日:2022-10-14
申请号:CN202210849578.9
申请日:2022-07-19
Applicant: 南通大学
Abstract: 本发明提供了一种融合遗传算法和深度神经网络的软件缺陷预测方法,属于计算机技术领域,解决了自动缺陷预测中新的特征具有不确定性,会和预测结果有别的技术问题;其技术方案为:采用了结果优化的遗传算法选取数据集的特征,结合变分自编码器和最大均值差异距离,学习源项目和目标项目的共性特征,来训练可靠的缺陷预测模型。本发明的有益效果为:本发明的遗传算法结合贝叶斯算法替换传统遗传算法的随机变异过程,设计了新的适应度函数,减少了不必要的特征,通过多组数据集上与传统跨项目缺陷预测方法对比,表明本发明可以提高软件预测的有效性。
-
公开(公告)号:CN119473849A
公开(公告)日:2025-02-18
申请号:CN202411489722.8
申请日:2024-10-24
Applicant: 南通大学
IPC: G06F11/3604 , G06F18/22 , G06F18/25 , G06F18/214 , G06F40/30 , G06N20/20
Abstract: 本发明提供了一种基于对比学习和特征融合的及时缺陷预测方法,属于计算机技术领域,解决了预训练模型不能充分区分相似代码和捕捉内容上下文的技术问题。其技术方案为:包括以下步骤:S1:对数据集进行预处理和切分;S2:利用CodeBERT提取代码的语义特征;S3:将对比学习应用到语义特征提取中;S4:计算正样本和负样本的对比损失值,得到总的对比损失;S5:在特征融合阶段,将语义特征和专家特征融合,并调整模型全连接层和激活函数来优化模型架构。S6:使用训练好的模型在测试集上进行及时缺陷预测。本发明的有益效果为:提高及时缺陷预测的准确性和可靠性。
-
公开(公告)号:CN114936158B
公开(公告)日:2024-06-04
申请号:CN202210595157.8
申请日:2022-05-28
Applicant: 南通大学 , 江苏保润网络科技有限公司
IPC: G06F11/36 , G06F8/41 , G06F11/07 , G06N3/042 , G06N3/0464
Abstract: 本发明提供了一种基于图卷积神经网络的软件缺陷定位方法,包括以下步骤:(1)使用Louvain算法对抽象语法树进行剪枝,减少冗余节点;(2)结合抽象语法树与控制流图并通过Word2Vec生成对应的词向量,提取代码语义特征以及上下文依赖;(3)通过注意力机制进行关键特征提取和降维,减少模型参数的数量以及降低模型过拟合;(4)基于上述特征,对构建的图卷积神经网络模型进行训练,得到软件缺陷定位预测模型。本发明的有益效果为:结合抽象语法树和控制流图提取特征,通过图卷积神经网络进一步提取特征信息并进行节点分类,实现较高精度的缺陷定位,提高了缺陷定位的效率。
-
公开(公告)号:CN117972716A
公开(公告)日:2024-05-03
申请号:CN202410105910.X
申请日:2024-01-25
Applicant: 南通大学
Abstract: 本发明提供了一种通过强化学习增强基于提示学习的漏洞检测方法,属于智能软件工程技术领域。解决了现有深度学习模型在理解源代码的语义和语法能力的限制,以及微调预训练模型在大数据集上性能提升较低的技术问题。其技术方案为:包括两个部分:通过采用CodeBERT预训练模型从源代码中提取语义和语法信息,结合提示学习的方法,将预训练模型的预先知识快速应用到漏洞检测任务上,同时结合奖励机制,提升模型在大数据样本下的性能。本发明的有益效果为:可以提高软件漏洞检测的有效性。
-
公开(公告)号:CN117555776A
公开(公告)日:2024-02-13
申请号:CN202311463591.1
申请日:2023-11-06
Applicant: 南通大学
IPC: G06F11/36 , G06F18/241 , G06F18/214
Abstract: 本发明提供了一种基于对偶学习与深度语义挖掘的软件缺陷预测方法,属于智能软件工程技术领域。解决了当前利用词袋模型将源码转换为向量后的语义局限以及二次利用预测后的分类标签扩充原有数据集的技术问题。其技术方案为:包括两个部分:分别采用了CodeT5语言预训练模型从源代码中提取语义和结构信息,结合Bi‑GRU模型与自注意力机制,捕捉源代码中的上下文信息,学习源项目与目标项目的共同特性,来训练可靠的缺陷预测模型;还利用快速梯度法对数据集进行扰动扩充,同时对预测后的分类标签,通过对偶学习的反向分类器与正向分类器进行取反,进行二次预测。本发明的有益效果为:可以提高软件缺陷预测的有效性。
-
公开(公告)号:CN115617692A
公开(公告)日:2023-01-17
申请号:CN202211418719.8
申请日:2022-11-14
Applicant: 南通大学
IPC: G06F11/36 , G06F18/2415 , G06N3/045 , G06N3/048
Abstract: 本发明提供了一种基于GAT和GraphSMOTE的缺陷预测方法,属于计算机领域,解决了以往缺陷预测专注于代码语义信息而忽略代码结构信息,并且对代码的类不平衡没有关注的问题;其技术方案为:包括以下步骤:(1)对该数据集进行预处理操作;(2)利用先序遍历对AST的token进行提取,并且提取token之间的关系矩阵;(3)通过Bert对token编码为特征向量;(4)采用GraphSMOTE对向量进行类不平衡处理;(5)将向量输入图注意力神经网络训练,得到每个节点的特征表示;(6)将节点的向量表示输入到mlp分类器中,进行缺陷预测。本发明的有益效果为:提高了缺陷预测可靠性和准确性。
-
公开(公告)号:CN115471005A
公开(公告)日:2022-12-13
申请号:CN202211205164.9
申请日:2022-09-29
Applicant: 南通大学
Abstract: 本发明提供一种基于LS‑SVM‑Leslie组合模型的人口预测方法,属于数学和计算机科学。解决了传统人口预测模型中缺乏性别比例、年龄结构和人口数据变动规律的问题。其技术方案为:包括以下步骤:S1:收集数据并预处理;S2:选取预测指标并估计出生性别比;S3:用LS‑SVM模型预测特定年龄的生育率D1和男/女死亡率D2;S4:将D1、D2输入Leslie模型,输出特定初始年龄数据D3;S5:将D3作为Leslie下一年的输入参数,迭代输出每年的人口数据;S6:建立时间序列预测模型和灰色系统预测模型;S7:基于权重组合步骤S6中的两个模型并输出预测结果。本发明的有益效果为:本发明选取多个预测指标和预测模型,从而提高人口预测的可靠性。
-
-
-
-
-
-
-
-
-