一种基于提示学习和数据增强的API补全方法

    公开(公告)号:CN116483337A

    公开(公告)日:2023-07-25

    申请号:CN202310445624.3

    申请日:2023-04-24

    Applicant: 南通大学

    Abstract: 本发明提供了一种基于提示学习和数据增强的API补全方法,属于计算机领域。解决了基于生成技术的API推荐模型预测能力有限和用于API推荐的训练数据不足的问题。其技术方案为:包括以下步骤:S1:语料库预处理并构造提示前缀;S2:构建预训练模型CodeT5和ATCom对抗训练方法;S3:在模型嵌入层使用ATCom,生成多组对抗样本;S4:利用原语料库和生成的对抗样本微调CodeT5并生成完整的API。本发明的有益效果为:根据不完整的API前缀和提示信息进行API补全,提高开发人员的效率和编程体验,通过对抗样本的训练,增强模型的鲁棒性,提高模型的泛化能力,从而提高API补全的准确性和稳定性。

    一种基于迁移学习和特征融合的跨项目漏洞检测方法

    公开(公告)号:CN119128889A

    公开(公告)日:2024-12-13

    申请号:CN202311592849.8

    申请日:2023-11-27

    Applicant: 南通大学

    Abstract: 本发明提供了一种基于迁移学习和特征融合的跨项目漏洞检测方法,属于计算机技术领域。解决了跨项目漏洞检测模型中特征提取部分缺乏专家特征的问题,并更好地利用已标记的源项目数据来进行模型的训练。其技术方案为:包括以下步骤:S1:构成数据集;S2:使用Understand工具提取专家特征;S3:使用过采样方法SMOTE处理训练数据类不平衡问题;S4:分别构建基于专家特征和语义特征的模型;S5:通过加权平均方法对两个模型进行融合;S6:使用融合后的模型来检测目标项目内新的代码是否含有漏洞。本发明的有益效果为:融合专家特征和语义特征,并仅需标记目标项目内的少量数据就可提高跨项目漏洞检测的准确度。

    一种基于语境学习的软件漏洞评估方法

    公开(公告)号:CN118296609A

    公开(公告)日:2024-07-05

    申请号:CN202410168322.0

    申请日:2024-02-06

    Applicant: 南通大学

    Abstract: 本发明提供了一种基于语境学习的软件漏洞评估方法,属于计算机技术领域,解决了评估漏洞数据稀缺和大语言模型对评估任务的局限性的技术问题。包括以下步骤:S1:搜集漏洞评估相关数据;S2:获取向量表示;S3:使用Joern工具生成代码属性图;S4:计算目标漏洞描述与数据集中漏洞描述的文本相似度;S5:计算目标漏洞代码与数据集中漏洞代码的代码相似度;S6:对上述相似度进行加权融合,得到最终的相似度,并排序找到最相似的漏洞代码与描述示例;S7:通过语境学习来执行漏洞代码的评估任务。本发明的有益效果为:通过对大语言模型进行语境学习,无需额外训练过程就进行高质量漏洞评估。

    基于代码词法和结构信息融合的半监督漏洞评估方法

    公开(公告)号:CN117556417A

    公开(公告)日:2024-02-13

    申请号:CN202311463590.7

    申请日:2023-11-06

    Applicant: 南通大学

    Abstract: 本发明提供了一种融合代码词法和结构信息的半监督软件漏洞评估方法,属于计算机技术领域;解决了软件漏洞评估领域标记数据量少和缺少代码结构信息的问题。其技术方案为:包括以下步骤:S1:搜集漏洞评估相关数据;S2:使用Joern工具生成代码属性图并提取代码结构信息;S3:将词法信息和结构信息融合;S4:随机选择少量漏洞代码;S5:构建出最优漏洞评估模型;S6:针对需要评估的漏洞代码,载入上述模型并完成评估。本发明的有益效果为:借助半监督学习方法,并将代码词法和结构信息进行融合,仅需专家标记少量数据,就可以完成高质量漏洞评估模型的训练。

    一种基于上下文学习和大语言模型的Solidity注释生成方法

    公开(公告)号:CN117492825A

    公开(公告)日:2024-02-02

    申请号:CN202311408261.2

    申请日:2023-10-27

    Applicant: 南通大学

    Abstract: 本发明提供了基于上下文学习和大语言模型的Solidity代码注释生成方法,属于软件工程技术领域。解决了主流方法不能生成新注释,依赖数据集和泛化能力不足的技术问题。其技术方案为:包括以下步骤:(1)通过智能合约代码社区搜集语料库;(2)检索出最相似的前n个代码片段。(3)为支持大语言模型的上下文学习,结合检索到的示范与定制的提示词构造提示模板。(4)调用大语言模型API,结合提示模板完成注释生成。本发明的有益效果:本发明无需额外训练,可显著提高自动生成的代码注释质量。

    基于预训练模型T5的编程问答帖子标题自动补全方法

    公开(公告)号:CN116738976A

    公开(公告)日:2023-09-12

    申请号:CN202310050161.0

    申请日:2023-02-01

    Applicant: 南通大学

    Abstract: 本发明提供了一种基于预训练模型T5的编程问答帖子标题自动补全方法,属于计算机技术领域,解决了开发人员不能很好的总结提炼问题帖标题,导致标题质量低而不能及时得到有效回复的问题。其技术方案为:包括以下步骤:(1)搜集高质量问题贴;(2)语料库的构建及预处理;(3)标题补全模型的构建;(4)标题补全模型的应用。本发明的有益效果为:减少开发人员编写标题时所需的时间和精力,帮助他们编写更高质量的标题。

Patent Agency Ranking