-
公开(公告)号:CN114546397A
公开(公告)日:2022-05-27
申请号:CN202210041705.2
申请日:2022-01-14
Applicant: 南通大学
IPC: G06F8/41 , G06F8/73 , G06F40/169 , G06F40/237 , G06K9/62 , G06N3/04
Abstract: 本发明提供了一种基于对偶学习的shellcode代码和注释生成方法,包括以下步骤:(1)搜集来自shellstorm和Exploit Database的shellcode语料库;(2)将shellcode注释生成和shellcode代码生成这两个任务形式化为一个对偶学习问题,并通过为输入添加前缀来区分两个任务,使用浅层的Transformer进行同步学习,实现知识共享,提高训练模型的性能和泛化能力;(3)提出了一种改进自注意力计算的归一化方法Adjust_QKNorm,以使Transformer适应低资源任务;(4)提出一个基于规则的修复组件。本发明的有益效果为:有利于软件的开发和维护,生成的高质量注释和代码可以帮助提高开发人员的工作效率,进而提高软件质量。
-
公开(公告)号:CN114418033A
公开(公告)日:2022-04-29
申请号:CN202210170049.6
申请日:2022-02-24
Applicant: 南通大学
IPC: G06K9/62 , G06F40/289 , G06F16/35 , G06F8/41 , G06N3/08
Abstract: 本发明提供了一种基于CodeBert的代码编程语言分类方法,属于计算机应用技术领域。其技术方案为:包括以下步骤:(1)对原始数据集进行处理,去除其中的噪音,并使用BPE方法进行分词;(2)从CodeBert的每一层中提取表征信息作为表征信息序列,使用双向循环神经网络(Bi‑LSTM)和注意力机制关注可提供重要表征信息的层;(3)基于语料库对构建的模型进行训练,得到代码编程语言分类模型。本发明的有益效果为:该方法能快速识别源代码所属的编程语言类型,降低手工分类源代码编程语言的成本。
-