基于全局信息和局部信息的代码搜索嵌入方法及装置

    公开(公告)号:CN113449076B

    公开(公告)日:2022-08-30

    申请号:CN202110697410.6

    申请日:2021-06-23

    Applicant: 武汉大学

    Abstract: 本发明提供一种基于全局信息和局部信息的代码搜索嵌入方法及装置。本发明中设计了一个共享的线性层和卷积层接在ON‑LSTM后面,利用共享的网络参数,能够将“双塔”ON‑LSTM模型输出后的顺序信息融合增强,加强对全局信息的利用;巧妙地应用ON‑LSTM的结构特性,选择其中的结构信息并使用CNN增强,通过曼哈顿距离的计算,加强对局部信息的利用;通过将各个模块输出的交互向量、结构向量、全局信息向量拼接成特征向量,再计算相似度,平衡全局信息和局部信息。

    一种基于结构化嵌入的交互式代码搜索方法及装置

    公开(公告)号:CN111159223B

    公开(公告)日:2021-09-03

    申请号:CN201911420354.0

    申请日:2019-12-31

    Applicant: 武汉大学

    Abstract: 本发明提供了一种基于结构化嵌入的交互式代码搜索方法,首先从收集的原始数据中抽取出软件存储库以及代码‑描述匹配对的模型语料,然后对代码存储库及模型语料的分词,接着采用预设工具构建预训练的结构化嵌入;接下来抽取高质量模型语料并划分;然后构建依次包含特征抽取模块、交互注意力抽取模块和相似度匹配模块的交互式代码搜索模型NICS,并设置训练网络的合页损失函数;再将预训练结构化词嵌入加载至交互式代码搜索NICS模型,并对NICS模型进行训练,最后利用训练好的NICS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。本发明可以有效地检索代码片段,并在所有基准测试中取得最先进的性能。

    一种基于分层嵌入的神经代码搜索方法及装置

    公开(公告)号:CN111191002A

    公开(公告)日:2020-05-22

    申请号:CN201911364631.0

    申请日:2019-12-26

    Applicant: 武汉大学

    Inventor: 彭敏 胡刚 黎芮彤

    Abstract: 本发明公开了一种基于分层嵌入的神经代码搜索方法,包括收集代码搜索数据集;对收集的代码搜索数据集进行预处理;对预处理后的语料数据进行结构化分词以及比例划分;构建依次包含内部信息编码模块、交互信息编码模块、相似度匹配模块的分层嵌入神经代码搜索模型HECS,并设置训练网络的合页损失函数;对HECS设置初始化参数,并利用训练集来训练拟合HECS模型的参数,直到在验证集上迭代预设次直到合页损失函数收敛,得到训练好的HECS模型;利用训练好的HECS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。本发明的方法可以更好地捕获查询与矢量空间中相应代码段之间的相似性,提高模型的搜索和预测性能。

    一种基于分层嵌入的神经代码搜索方法及装置

    公开(公告)号:CN111191002B

    公开(公告)日:2023-05-23

    申请号:CN201911364631.0

    申请日:2019-12-26

    Applicant: 武汉大学

    Inventor: 彭敏 胡刚 黎芮彤

    Abstract: 本发明公开了一种基于分层嵌入的神经代码搜索方法,包括收集代码搜索数据集;对收集的代码搜索数据集进行预处理;对预处理后的语料数据进行结构化分词以及比例划分;构建依次包含内部信息编码模块、交互信息编码模块、相似度匹配模块的分层嵌入神经代码搜索模型HECS,并设置训练网络的合页损失函数;对HECS设置初始化参数,并利用训练集来训练拟合HECS模型的参数,直到在验证集上迭代预设次直到合页损失函数收敛,得到训练好的HECS模型;利用训练好的HECS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。本发明的方法可以更好地捕获查询与矢量空间中相应代码段之间的相似性,提高模型的搜索和预测性能。

    基于全局信息和局部信息的代码搜索嵌入方法及装置

    公开(公告)号:CN113449076A

    公开(公告)日:2021-09-28

    申请号:CN202110697410.6

    申请日:2021-06-23

    Applicant: 武汉大学

    Abstract: 本发明提供一种基于全局信息和局部信息的代码搜索嵌入方法及装置。本发明中设计了一个共享的线性层和卷积层接在ON‑LSTM后面,利用共享的网络参数,能够将“双塔”ON‑LSTM模型输出后的顺序信息融合增强,加强对全局信息的利用;巧妙地应用ON‑LSTM的结构特性,选择其中的结构信息并使用CNN增强,通过曼哈顿距离的计算,加强对局部信息的利用;通过将各个模块输出的交互向量、结构向量、全局信息向量拼接成特征向量,再计算相似度,平衡全局信息和局部信息。

    一种基于结构化嵌入的交互式代码搜索方法及装置

    公开(公告)号:CN111159223A

    公开(公告)日:2020-05-15

    申请号:CN201911420354.0

    申请日:2019-12-31

    Applicant: 武汉大学

    Abstract: 本发明提供了一种基于结构化嵌入的交互式代码搜索方法,首先从收集的原始数据中抽取出软件存储库以及代码-描述匹配对的模型语料,然后对代码存储库及模型语料的分词,接着采用预设工具构建预训练的结构化嵌入;接下来抽取高质量模型语料并划分;然后构建依次包含特征抽取模块、交互注意力抽取模块和相似度匹配模块的交互式代码搜索模型NICS,并设置训练网络的合页损失函数;再将预训练结构化词嵌入加载至交互式代码搜索NICS模型,并对NICS模型进行训练,最后利用训练好的NICS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。本发明可以有效地检索代码片段,并在所有基准测试中取得最先进的性能。

Patent Agency Ranking