-
公开(公告)号:CN119167082A
公开(公告)日:2024-12-20
申请号:CN202411183038.7
申请日:2024-08-27
Applicant: 北京大学
IPC: G06F18/214 , G06F8/41
Abstract: 本发明公开了一种面向路径的扩散式代码预训练方法和系统,本发明的方法步骤包括:1)通过预先设置的路径扩散方式对已有的代码训练数据进行扩散,得到扩散后的代码数据集;其中,利用路径扩散方式对一代码训练数据x进行扩散的方法为:对该代码训练数据x进行不同程度的遮挡或破坏,得到n个与该代码训练数据具有关联关系的扩散样本作为该代码训练数据x对应的扩散样本集合;各代码训练数据对应的扩散样本集合构成所述扩散后的代码数据集;2)利用扩散后的代码数据集训练代码预训练模型。本发明增强了对单个代码的使用并扩展了多个训练数据样本之间的关联,从而所训练模型能更有效地处理下游任务。
-
公开(公告)号:CN118778942A
公开(公告)日:2024-10-15
申请号:CN202410768557.3
申请日:2024-06-14
Applicant: 北京大学
Abstract: 本发明公开一种自动代码的演化和编辑方法及系统,属于信息技术领域。所述方法包括:构建训练数据集,所述训练数据集由若干个新旧代码对构成;基于代码编辑目标生成损失、代码保留片段掩码损失以及结合去噪自编码的代码编辑损失,在所述训练集上训练一代码演化和编辑模型;其中,所述代码演化和编辑模型是基于Transformer的Encoder‑Decoder框架构建;基于代码演化和编辑模型实现测试代码的演化或编辑。本发明可以在修改旧代码的过程中高效地生成正确的目标代码。
-
公开(公告)号:CN118708186A
公开(公告)日:2024-09-27
申请号:CN202410809843.X
申请日:2024-06-21
Applicant: 北京大学
Abstract: 本发明属于信息技术领域,涉及一种结合神经网络预测与搜索算法的自动化编译错误修复方法和系统。该方法包括:对带有编译错误的程序进行预处理,生成标记化和抽象化的程序;采用编码器对标记化和抽象化的程序进行处理以生成向量序列,其中的每个向量代表程序中的一个标记;根据生成的向量序列,使用预测头预测插入操作符、删除操作符和替换操作符的分数;根据预测的分数,构建加权修改图;根据加权修改图,调用搜索算法获得修复结果。本发明能够限制和引导搜索算法,能够生成更高质量的修复程序。
-
-