一种基于乘积量化的高效代码搜索方法

    公开(公告)号:CN117951251A

    公开(公告)日:2024-04-30

    申请号:CN202410052881.5

    申请日:2024-01-15

    Applicant: 东北大学

    Abstract: 本发明提供一种基于乘积量化的高效代码搜索方法,涉及代码搜索技术领域。该方法首先获取代码片段和代码片段对应的自然语言描述;并对获取的代码片段和对应的自然语言描述,进行预处理,提取代码片段的多种特征信息;然后构建代码片段特征向量;并将代码片段特征向量量化成低维向量;再针对用户输入的自然语言查询进行预处理,得到自然语言序列;进而构建自然语言查询向量;并对自然语言查询向量进行维度分段;进而为每个自然语言查询子向量构建查询表;最后在代码数据库中查找到与自然语言查询向量最为相似的代码片段;并使用重排对查询结果进行二次筛选。该方法可以在不牺牲基线代码搜索模型过多准确率的情况下,大幅度提升代码搜索速度。

Patent Agency Ranking