一种基于词级对齐的代码搜索方法及装置

    公开(公告)号:CN117421392A

    公开(公告)日:2024-01-19

    申请号:CN202311723167.6

    申请日:2023-12-15

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于词级对齐的代码搜索方法及装置,其中的方法包括如下步骤:输入带描述的代码;使用对齐工具对代码进行词级对齐处理;分别对代码和描述进行单独的嵌入,构建词级信息流图,用词级信息流图提取时序‑结构高度关联的特征;用Transformer分别计算代码和描述的表示向量;预测每个候选代码片段的余弦相似度分数,使用分数对所有候选代码片段进行重新排序,得到检索代码列表。本发明为了提升源代码与AST之间的关联性,使用对齐工具明确建立它们之间的词级别对应关系;基于自注意力机制的图生成网络,用于为每个源代码预测一个词级信息流图,通过阈值化处理去除相关性较低的冗余词。

Patent Agency Ranking