Patent search ap:("东北大学") AND inv:"杨四海" Page 1

1.

发明公开
一种基于预训练模型的代码搜索系统及方法审中-实审

公开(公告)号：CN117992572A

公开(公告)日：2024-05-07

申请号：CN202410155275.6

申请日：2024-02-02

Applicant: 东北大学

Inventor： 印莹 , 杨四海 , 赵宇海

IPC: G06F16/33 , G06F16/35 , G06F40/284 , G06F40/30 , G06F18/22 , G06F18/23 , G06N3/045 , G06N3/0895

Abstract: 本发明提供一种基于预训练模型的代码搜索系统及方法，涉及代码搜索技术领域。该系统及方法首先提取每段代码的自然语言描述序列以及每一段代码片段的Token序列；再提取Token序列T中的特征，得到Token序列的特征向量；并对每段代码对应的自然语言描述序列N进行特征提取，从而生成对应的自然语言描述的特征向量；然后计算代码片段的特征向量和自然语言描述的特征向量之间的相似度；迭代执行以上过程最终产出每个代码片段的特征向量；再将各代码片段的特征向量通过聚类算法聚类成M个向量簇；对于用户的查询语句，在经过训练后的CodeBERT模型、聚类后的特征向量以及代码库中存储的代码片段序列P的基础上进行代码搜索工作。

Patent Agency Ranking