-
公开(公告)号:CN119128889A
公开(公告)日:2024-12-13
申请号:CN202311592849.8
申请日:2023-11-27
Applicant: 南通大学
IPC: G06F21/57 , G06F40/30 , G06F18/213 , G06F18/214 , G06F18/25 , G06N20/20
Abstract: 本发明提供了一种基于迁移学习和特征融合的跨项目漏洞检测方法,属于计算机技术领域。解决了跨项目漏洞检测模型中特征提取部分缺乏专家特征的问题,并更好地利用已标记的源项目数据来进行模型的训练。其技术方案为:包括以下步骤:S1:构成数据集;S2:使用Understand工具提取专家特征;S3:使用过采样方法SMOTE处理训练数据类不平衡问题;S4:分别构建基于专家特征和语义特征的模型;S5:通过加权平均方法对两个模型进行融合;S6:使用融合后的模型来检测目标项目内新的代码是否含有漏洞。本发明的有益效果为:融合专家特征和语义特征,并仅需标记目标项目内的少量数据就可提高跨项目漏洞检测的准确度。
-
公开(公告)号:CN117494131A
公开(公告)日:2024-02-02
申请号:CN202311408265.0
申请日:2023-10-27
Applicant: 南通大学
IPC: G06F21/57 , G06F16/33 , G06F40/289 , G06F40/30
Abstract: 本发明提供了一种改进的基于大语言模型的漏洞检测方法,属于计算机技术领域,解决了传统漏洞检测方法的准确率和效率低下的技术问题。其技术方案为:包括以下步骤:S1:构成漏洞数据集;S2:将数据集划分成训练集、验证集和测试集;S3:使用CodeT5模型提取语义特征;S4:通过计算语义相似度得到数据集中与目标代码最相似的TOP k个候选代码;S5:融合候选代码和目标代码的词法相似性和语法相似性得到一个混合分数;S7:加入身份信息提示和领域信息提示;S8:将提示、目标代码、图结构数据和最相似的示范提供给大语言模型。本发明的有益效果为:能够更准确地识别潜在的漏洞,并提高模型的鲁棒性和适应性。
-
公开(公告)号:CN115480821A
公开(公告)日:2022-12-16
申请号:CN202211129739.3
申请日:2022-09-16
Applicant: 南通大学
Abstract: 本发明提供了一种基于主动学习的代码注释生成方法,属于计算机技术领域,解决了在有限的人工标注预算下,导致模型训练数据不足,难以生成高质量代码注释的问题其技术方案为:包括以下步骤:(1)搜集域内数据集;(2)预训练通用模型;(3)设计基于聚类和注意力分散的主动学习采样策略;(4)在数据采样、标记和模型微调这两个步骤中不断迭代,直到预算用完或达到预定义的终止条件;(5)在有限的人工标注预算下微调后的模型会为代码段生成更高质量的代码注释。本发明的有益效果为:基于主动学习训练的模型可以在有限的标注预算下使用较少的训练数据为代码片段生成更高质量的注释,从而平衡地达到一定注释质量所需的人力。
-
公开(公告)号:CN119597609A
公开(公告)日:2025-03-11
申请号:CN202311592854.9
申请日:2023-11-27
Applicant: 南通大学
IPC: G06F11/36 , G06F16/33 , G06F18/214 , G06F18/22 , G06F18/241 , G06F40/30 , G06N3/0455 , G06N3/08
Abstract: 本发明提供了一种基于信息检索和深度学习的动态代码评审意见生成方法,属于软件工程领域,解决了静态的融合方法依赖于特定任务和数据集,泛化能力差的技术问题。其技术方案为:包括以下步骤:(1)从开源项目搜集实验对象;(2)构建代码评审意见生成模型;(3)微调代码预训练模型CodeT5,构建语义相似度分类器。(4)使用CodeBert将目标代码转化为向量,得到最相似代码和对应评审意见,将其和目标代码输入分类器;(5)如果两者语义相似,使用检索的评审意见作为输出;如果语义不相似,使用生成模型生成代码评审意见。本发明的有益效果为:提高代码评审效率。
-
公开(公告)号:CN117492825A
公开(公告)日:2024-02-02
申请号:CN202311408261.2
申请日:2023-10-27
Applicant: 南通大学
Abstract: 本发明提供了基于上下文学习和大语言模型的Solidity代码注释生成方法,属于软件工程技术领域。解决了主流方法不能生成新注释,依赖数据集和泛化能力不足的技术问题。其技术方案为:包括以下步骤:(1)通过智能合约代码社区搜集语料库;(2)检索出最相似的前n个代码片段。(3)为支持大语言模型的上下文学习,结合检索到的示范与定制的提示词构造提示模板。(4)调用大语言模型API,结合提示模板完成注释生成。本发明的有益效果:本发明无需额外训练,可显著提高自动生成的代码注释质量。
-
公开(公告)号:CN118296609A
公开(公告)日:2024-07-05
申请号:CN202410168322.0
申请日:2024-02-06
Applicant: 南通大学
IPC: G06F21/57 , G06F40/194 , G06F40/253 , G06F40/295 , G06F40/30 , G06F18/213 , G06F18/22
Abstract: 本发明提供了一种基于语境学习的软件漏洞评估方法,属于计算机技术领域,解决了评估漏洞数据稀缺和大语言模型对评估任务的局限性的技术问题。包括以下步骤:S1:搜集漏洞评估相关数据;S2:获取向量表示;S3:使用Joern工具生成代码属性图;S4:计算目标漏洞描述与数据集中漏洞描述的文本相似度;S5:计算目标漏洞代码与数据集中漏洞代码的代码相似度;S6:对上述相似度进行加权融合,得到最终的相似度,并排序找到最相似的漏洞代码与描述示例;S7:通过语境学习来执行漏洞代码的评估任务。本发明的有益效果为:通过对大语言模型进行语境学习,无需额外训练过程就进行高质量漏洞评估。
-
公开(公告)号:CN117556417A
公开(公告)日:2024-02-13
申请号:CN202311463590.7
申请日:2023-11-06
Applicant: 南通大学
Abstract: 本发明提供了一种融合代码词法和结构信息的半监督软件漏洞评估方法,属于计算机技术领域;解决了软件漏洞评估领域标记数据量少和缺少代码结构信息的问题。其技术方案为:包括以下步骤:S1:搜集漏洞评估相关数据;S2:使用Joern工具生成代码属性图并提取代码结构信息;S3:将词法信息和结构信息融合;S4:随机选择少量漏洞代码;S5:构建出最优漏洞评估模型;S6:针对需要评估的漏洞代码,载入上述模型并完成评估。本发明的有益效果为:借助半监督学习方法,并将代码词法和结构信息进行融合,仅需专家标记少量数据,就可以完成高质量漏洞评估模型的训练。
-
-
-
-
-
-