-
公开(公告)号:CN117668159A
公开(公告)日:2024-03-08
申请号:CN202311674549.4
申请日:2023-12-07
Applicant: 北京理工大学
IPC: G06F16/33 , G06F40/30 , G06F40/284 , G06F40/247 , G06N3/0895
Abstract: 本发明涉及强化多模态语义的对比学习代码搜索技术,属于自然语言处理与机器学习领域。本发明首先将代码片段表示为token序列、抽象语法树和程序表达式图三种模态,利用BERT模型生成各模态特征向量,并拼接为联合代码特征向量;然后通过构建一种对比损失函数,缩小查询语句与对应代码片段在特征空间中的距离;最后利用余弦相似度计算查询语句特征向量与联合代码特征向量的距离并排序,输出代码搜索结果。本发明针对现有方法未充分提取代码结构特征、查询语句与代码片段存在语义鸿沟的问题,提出强化多模态语义的对比学习代码搜索技术,提高代码搜索的准确率。