-
公开(公告)号:CN117992572A
公开(公告)日:2024-05-07
申请号:CN202410155275.6
申请日:2024-02-02
Applicant: 东北大学
IPC: G06F16/33 , G06F16/35 , G06F40/284 , G06F40/30 , G06F18/22 , G06F18/23 , G06N3/045 , G06N3/0895
Abstract: 本发明提供一种基于预训练模型的代码搜索系统及方法,涉及代码搜索技术领域。该系统及方法首先提取每段代码的自然语言描述序列以及每一段代码片段的Token序列;再提取Token序列T中的特征,得到Token序列的特征向量;并对每段代码对应的自然语言描述序列N进行特征提取,从而生成对应的自然语言描述的特征向量;然后计算代码片段的特征向量和自然语言描述的特征向量之间的相似度;迭代执行以上过程最终产出每个代码片段的特征向量;再将各代码片段的特征向量通过聚类算法聚类成M个向量簇;对于用户的查询语句,在经过训练后的CodeBERT模型、聚类后的特征向量以及代码库中存储的代码片段序列P的基础上进行代码搜索工作。