-
公开(公告)号:CN118535149A
公开(公告)日:2024-08-23
申请号:CN202410588587.6
申请日:2024-05-13
Applicant: 哈尔滨工业大学
IPC: G06F8/35 , G06F40/151 , G06F40/211 , G06F40/30 , G06F40/58 , G06F18/22
Abstract: 本发明属于数据增强领域,尤其涉及一种基于句子级语码转换模型的多语言代码生成方法。针对原本语码转换技术一词多义、代码不相关的问题,本发明提出了一种一种基于句子级语码转换模型的多语言代码生成方法,该方法利用机器翻译、代码大模型技术,在模型中有效地引入了代码信息和上下文信息,增强了语码转换句子的上下文一致性和代码一致性,生成的新数据能显著提升模型多语言代码生成能力,本发明关键在于使用句子级别切分代替词级别切分解决一词多义,以及使用代码大模型的PPL组合句子引入代码信息,解决了原本语码转换技术一词多义、代码不相关的问题。从而提高了多语言代码生成技术存在生成的代码的准确性。