-
公开(公告)号:CN114418033B
公开(公告)日:2024-05-24
申请号:CN202210170049.6
申请日:2022-02-24
Applicant: 南通大学
IPC: G06F18/2415 , G06F18/2431 , G06F18/214 , G06F40/211 , G06F40/284 , G06F40/30 , G06F16/35 , G06N3/08 , G06N3/0442 , G06N3/045
Abstract: 本发明提供了一种基于CodeBert的代码编程语言分类方法,属于计算机应用技术领域。其技术方案为:包括以下步骤:(1)对原始数据集进行处理,去除其中的噪音,并使用BPE方法进行分词;(2)从CodeBert的每一层中提取表征信息作为表征信息序列,使用双向循环神经网络(Bi‑LSTM)和注意力机制关注可提供重要表征信息的层;(3)基于语料库对构建的模型进行训练,得到代码编程语言分类模型。本发明的有益效果为:该方法能快速识别源代码所属的编程语言类型,降低手工分类源代码编程语言的成本。
-
公开(公告)号:CN115130480A
公开(公告)日:2022-09-30
申请号:CN202210405606.8
申请日:2022-04-18
Applicant: 南通大学
IPC: G06F40/58 , G06F40/30 , G06F40/289 , G06F40/211
Abstract: 本发明属于机器翻译质量检测技术领域,公开了一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法。针对需要测试的一系列英文源句,首先借助辅助翻译软件,通过计算主英中机器翻译软件和辅助英中机器翻译软件的翻译结果间的余弦相似度,识别出错误候选句子。随后对英文源句进行双粒度替换,以生成替换后的英文源句。并基于成分句法分析和依存句法分析,通过对比原始英文源句和替换后的英文源句在主英中机器翻译软件的翻译结果的结构表征来进一步识别出错误候选句子。最后通过分析被归为错误候选句子的英文源句,尝试定位并修复英中翻译软件测试方法的实现代码,以提高英中翻译软件的翻译质量。
-
公开(公告)号:CN114676298A
公开(公告)日:2022-06-28
申请号:CN202210379210.0
申请日:2022-04-12
Applicant: 南通大学
IPC: G06F16/9035 , G06F16/951 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于质量过滤器的缺陷报告标题自动生成方法,属于软件质量保障技术领域。其技术方案为:首先从GitHub上选择高质量开源项目,再对数据集进行数据预处理,训练自动生成模型,当预测新的缺陷报告时,分别基于通过学习低质量缺陷报告特征进行过滤的深度学习模块和通过判断历史数据集中是否存在与新缺陷报告内容相似的数据实现预测的信息检索模块,来协同预测该缺陷报告能否生成高质量标题,若预测能,则通过自动生成模型生成标题,反之则提出警告。本发明的有益效果为:通过使用正则表达式进行数据预处理,提高了数据处理效率和方法的兼容性;通过双模块协同过滤,提高了自动生成模型生成的标题质量与效率。
-
公开(公告)号:CN113139054A
公开(公告)日:2021-07-20
申请号:CN202110430772.9
申请日:2021-04-21
Applicant: 南通大学
IPC: G06F16/35 , G06F40/30 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于Transformer的代码编程语言分类方法,包括以下步骤:(1)从Stack Overflow上搜集问答帖子作为数据集,对原始数据集中的数据进行数据预处理;(2)对使用BPE分词后的数据进行词嵌入将词转换成向量;(3)基于上述构建的数据集,对RoBERTa模型进行微调,将生成的词向量输入进RoBERTa模型,通过双层的Transformer编码器进行代码语义的学习,生成语义表示向量Xsemantic;(4)将语义向量Xsemantic通过线性层映射到编程语言类别标签上,通过Softmax算法得到相应的编程语言。本发明的有益效果为:可以根据代码片段快速识别代码类型,以起到辅助开发人员在问答网站上快速寻找到解决方案的作用。
-
公开(公告)号:CN114546397B
公开(公告)日:2024-08-20
申请号:CN202210041705.2
申请日:2022-01-14
Applicant: 南通大学
IPC: G06F8/41 , G06F8/73 , G06F40/169 , G06F40/237 , G06F18/22 , G06N3/0455 , G06N3/048 , G06N3/08
Abstract: 本发明提供了一种基于对偶学习的shellcode代码和注释生成方法,包括以下步骤:(1)搜集来自shellstorm和Exploit Database的shellcode语料库;(2)将shellcode注释生成和shellcode代码生成这两个任务形式化为一个对偶学习问题,并通过为输入添加前缀来区分两个任务,使用浅层的Transformer进行同步学习,实现知识共享,提高训练模型的性能和泛化能力;(3)提出了一种改进自注意力计算的归一化方法Adjust_QKNorm,以使Transformer适应低资源任务;(4)提出一个基于规则的修复组件。本发明的有益效果为:有利于软件的开发和维护,生成的高质量注释和代码可以帮助提高开发人员的工作效率,进而提高软件质量。
-
公开(公告)号:CN113139054B
公开(公告)日:2023-11-24
申请号:CN202110430772.9
申请日:2021-04-21
Applicant: 南通大学
IPC: G06F16/35 , G06F40/30 , G06F40/289 , G06N3/0455 , G06N3/0499 , G06N3/08
Abstract: 本发明提供了一种基于Transformer的代码编程语言分类方法,包括以下步骤:(1)从Stack Overflow上搜集问答帖子作为数据集,对原始数据集中的数据进行数据预处理;(2)对使用BPE分词后的数据进行词嵌入将词转换成向量;(3)基于上述构建的数据集,对RoBERTa模型进行微调,将生成的词向量输入进RoBERTa模型,通过双层的Transformer编码器进行代码语义的学习,生成语义表示向量Xsemantic;(4)将语义向量Xsemantic通过线性层映射到编程语言类别标签上,通过Softmax算法得到相应的编程语言。本发明的有益效果为:可以根据代码片段快速识别代码类型,以起到辅助开发人员在问答网站上快速寻找到解决方案的作用。
-
公开(公告)号:CN116738976A
公开(公告)日:2023-09-12
申请号:CN202310050161.0
申请日:2023-02-01
Applicant: 南通大学
IPC: G06F40/258 , G06F8/30 , G06F18/214 , G06F16/34
Abstract: 本发明提供了一种基于预训练模型T5的编程问答帖子标题自动补全方法,属于计算机技术领域,解决了开发人员不能很好的总结提炼问题帖标题,导致标题质量低而不能及时得到有效回复的问题。其技术方案为:包括以下步骤:(1)搜集高质量问题贴;(2)语料库的构建及预处理;(3)标题补全模型的构建;(4)标题补全模型的应用。本发明的有益效果为:减少开发人员编写标题时所需的时间和精力,帮助他们编写更高质量的标题。
-
公开(公告)号:CN114546397A
公开(公告)日:2022-05-27
申请号:CN202210041705.2
申请日:2022-01-14
Applicant: 南通大学
IPC: G06F8/41 , G06F8/73 , G06F40/169 , G06F40/237 , G06K9/62 , G06N3/04
Abstract: 本发明提供了一种基于对偶学习的shellcode代码和注释生成方法,包括以下步骤:(1)搜集来自shellstorm和Exploit Database的shellcode语料库;(2)将shellcode注释生成和shellcode代码生成这两个任务形式化为一个对偶学习问题,并通过为输入添加前缀来区分两个任务,使用浅层的Transformer进行同步学习,实现知识共享,提高训练模型的性能和泛化能力;(3)提出了一种改进自注意力计算的归一化方法Adjust_QKNorm,以使Transformer适应低资源任务;(4)提出一个基于规则的修复组件。本发明的有益效果为:有利于软件的开发和维护,生成的高质量注释和代码可以帮助提高开发人员的工作效率,进而提高软件质量。
-
公开(公告)号:CN114418033A
公开(公告)日:2022-04-29
申请号:CN202210170049.6
申请日:2022-02-24
Applicant: 南通大学
IPC: G06K9/62 , G06F40/289 , G06F16/35 , G06F8/41 , G06N3/08
Abstract: 本发明提供了一种基于CodeBert的代码编程语言分类方法,属于计算机应用技术领域。其技术方案为:包括以下步骤:(1)对原始数据集进行处理,去除其中的噪音,并使用BPE方法进行分词;(2)从CodeBert的每一层中提取表征信息作为表征信息序列,使用双向循环神经网络(Bi‑LSTM)和注意力机制关注可提供重要表征信息的层;(3)基于语料库对构建的模型进行训练,得到代码编程语言分类模型。本发明的有益效果为:该方法能快速识别源代码所属的编程语言类型,降低手工分类源代码编程语言的成本。
-
-
-
-
-
-
-
-