-
公开(公告)号:CN115480821A
公开(公告)日:2022-12-16
申请号:CN202211129739.3
申请日:2022-09-16
Applicant: 南通大学
Abstract: 本发明提供了一种基于主动学习的代码注释生成方法,属于计算机技术领域,解决了在有限的人工标注预算下,导致模型训练数据不足,难以生成高质量代码注释的问题其技术方案为:包括以下步骤:(1)搜集域内数据集;(2)预训练通用模型;(3)设计基于聚类和注意力分散的主动学习采样策略;(4)在数据采样、标记和模型微调这两个步骤中不断迭代,直到预算用完或达到预定义的终止条件;(5)在有限的人工标注预算下微调后的模型会为代码段生成更高质量的代码注释。本发明的有益效果为:基于主动学习训练的模型可以在有限的标注预算下使用较少的训练数据为代码片段生成更高质量的注释,从而平衡地达到一定注释质量所需的人力。