一种基于迁移学习和特征融合的跨项目漏洞检测方法

    公开(公告)号:CN119128889A

    公开(公告)日:2024-12-13

    申请号:CN202311592849.8

    申请日:2023-11-27

    Applicant: 南通大学

    Abstract: 本发明提供了一种基于迁移学习和特征融合的跨项目漏洞检测方法,属于计算机技术领域。解决了跨项目漏洞检测模型中特征提取部分缺乏专家特征的问题,并更好地利用已标记的源项目数据来进行模型的训练。其技术方案为:包括以下步骤:S1:构成数据集;S2:使用Understand工具提取专家特征;S3:使用过采样方法SMOTE处理训练数据类不平衡问题;S4:分别构建基于专家特征和语义特征的模型;S5:通过加权平均方法对两个模型进行融合;S6:使用融合后的模型来检测目标项目内新的代码是否含有漏洞。本发明的有益效果为:融合专家特征和语义特征,并仅需标记目标项目内的少量数据就可提高跨项目漏洞检测的准确度。

    一种基于主动学习的代码注释生成方法

    公开(公告)号:CN115480821A

    公开(公告)日:2022-12-16

    申请号:CN202211129739.3

    申请日:2022-09-16

    Applicant: 南通大学

    Abstract: 本发明提供了一种基于主动学习的代码注释生成方法,属于计算机技术领域,解决了在有限的人工标注预算下,导致模型训练数据不足,难以生成高质量代码注释的问题其技术方案为:包括以下步骤:(1)搜集域内数据集;(2)预训练通用模型;(3)设计基于聚类和注意力分散的主动学习采样策略;(4)在数据采样、标记和模型微调这两个步骤中不断迭代,直到预算用完或达到预定义的终止条件;(5)在有限的人工标注预算下微调后的模型会为代码段生成更高质量的代码注释。本发明的有益效果为:基于主动学习训练的模型可以在有限的标注预算下使用较少的训练数据为代码片段生成更高质量的注释,从而平衡地达到一定注释质量所需的人力。

    一种基于Transformer的编程问题帖标题自动生成方法

    公开(公告)号:CN114238621A

    公开(公告)日:2022-03-25

    申请号:CN202111441323.0

    申请日:2021-11-30

    Applicant: 南通大学

    Abstract: 本发明提供了一种基于Transformer的编程问题帖标题自动生成方法,属于计算机应用技术领域;其技术方案为:包括以下步骤:(1)收集开发人员问答网站上与Java、C#、Python和JavaScript四种编程语言相关的问题帖,基于三种启发式规则以过滤掉其中的低质量问题帖;(2)基于上述构建的语料库,对构建的基于Transformer的T5模型进行微调,利用AdaFactor优化器以及注意力机制进行优化,构建出问题帖标题自动生成模型。本发明的有益效果为:为开发人员问答网站(例如Stack Overflow)的问题帖生成既简洁又准确的标题,实现了针对Java、C#、Python和JavaScript四种编程语言的问题帖标题生成的自动化。

    一种基于Transformer的编程问题帖标题自动生成方法

    公开(公告)号:CN114238621B

    公开(公告)日:2024-09-06

    申请号:CN202111441323.0

    申请日:2021-11-30

    Applicant: 南通大学

    Abstract: 本发明提供了一种基于Transformer的编程问题帖标题自动生成方法,属于计算机应用技术领域;其技术方案为:包括以下步骤:(1)收集开发人员问答网站上与Java、C#、Python和JavaScript四种编程语言相关的问题帖,基于三种启发式规则以过滤掉其中的低质量问题帖;(2)基于上述构建的语料库,对构建的基于Transformer的T5模型进行微调,利用AdaFactor优化器以及注意力机制进行优化,构建出问题帖标题自动生成模型。本发明的有益效果为:为开发人员问答网站(例如Stack Overflow)的问题帖生成既简洁又准确的标题,实现了针对Java、C#、Python和JavaScript四种编程语言的问题帖标题生成的自动化。

Patent Agency Ranking