-
公开(公告)号:CN118656064A
公开(公告)日:2024-09-17
申请号:CN202411134182.1
申请日:2024-08-19
Applicant: 中国科学院软件研究所
IPC: G06F8/33 , G06F8/75 , G06N3/0455 , G06N3/08 , G06N3/084
Abstract: 本发明提供一种代码补全模型训练方法、装置、电子设备和存储介质,属于代码补全技术领域,其中方法包括:获取待补全的开源的抽象语法树AST数据集;后序遍历AST数据集,得到AST数据集对应的后序序列数据集;基于AST数据集构建词汇表,基于词汇表对后序序列数据集进行转换,生成对应的后序索引序列数据集;确定AST数据集对应的层级序列数据集;基于后序索引序列数据集和层级序列数据集,得到AST建模数据,基于AST建模数据训练初始代码补全模型,训练完成后,得到代码补全模型。本发明能够提高代码补全模型预测的精度和准确率。
-
公开(公告)号:CN118656064B
公开(公告)日:2024-12-03
申请号:CN202411134182.1
申请日:2024-08-19
Applicant: 中国科学院软件研究所
IPC: G06F8/33 , G06F8/75 , G06N3/0455 , G06N3/08 , G06N3/084
Abstract: 本发明提供一种代码补全模型训练方法、装置、电子设备和存储介质,属于代码补全技术领域,其中方法包括:获取待补全的开源的抽象语法树AST数据集;后序遍历AST数据集,得到AST数据集对应的后序序列数据集;基于AST数据集构建词汇表,基于词汇表对后序序列数据集进行转换,生成对应的后序索引序列数据集;确定AST数据集对应的层级序列数据集;基于后序索引序列数据集和层级序列数据集,得到AST建模数据,基于AST建模数据训练初始代码补全模型,训练完成后,得到代码补全模型。本发明能够提高代码补全模型预测的精度和准确率。
-