一种基于联合嵌入模型的代码推荐方法

    公开(公告)号:CN112860879A

    公开(公告)日:2021-05-28

    申请号:CN202110251408.6

    申请日:2021-03-08

    Applicant: 南通大学

    Abstract: 本发明提供一种基于联合嵌入模型的代码推荐方法,包括:S1、从GitHub帖子的评论中提取对问题的补充性问题;S2、将 用来训练sequence‑to‑sequence模型,并保存为问题提升模型;S3、从GitHub上收集带有注释的Java开源项目数据集,并对其预处理;S4、建立联合嵌入模型,进行向量化处理;S5、从GitHub中收集至少有20个stars的Java开源项目来构建代码库,将所有的代码段嵌入到向量中;S6、将查询问题输入到问题提升模型中,将得到的结果输入到联合嵌入模型中进行向量化;S7、计算查询问题的向量和代码向量的相似度得分来推荐Top‑k代码段。本发明解决了自然语言查询中反映的高级意图与源代码中低级实现细节之间不匹配的问题,以及深度学习方法中缺乏不可扩展性的问题。

    一种基于WTP-WCD算法的API推荐方法
    22.
    发明公开

    公开(公告)号:CN112214511A

    公开(公告)日:2021-01-12

    申请号:CN202011078740.9

    申请日:2020-10-10

    Applicant: 南通大学

    Abstract: 本发明提供一种基于WTP‑WCD算法的API推荐方法,包括如下步骤:步骤1)、收集API数据集;步骤2)、对数据集预处理;步骤3)、建立模型,将数据进行向量化处理;步骤4)、对生成的词向量进行加权处理;步骤5)、对需要查询的问题内容同样进行步骤二、三、四处理操作;步骤6)、进行相似度计算。本发明主要用于解决在软件开发中向用户推荐API的问题,能够有效辅助软件开发人员使用API来完成开发任务,具有较高的精确率和效率。本发明不仅可以向用户精确推荐API,而且能有效提高API推荐的效率。

    一种基于演化切片的演化影响集预测方法

    公开(公告)号:CN106844218B

    公开(公告)日:2020-06-23

    申请号:CN201710076573.6

    申请日:2017-02-13

    Applicant: 南通大学

    Abstract: 本发明提供一种基于演化切片的演化影响集预测方法,主要用于构建演化影响集以辅助软件开发者和维护者作出演化策略,包括如下步骤:识别演化元素;生成演化切片准则;构建演化数据依赖图;构建演化控制依赖图;生成演化切片作为演化影响集;度量演化影响集。本发明公开的基于演化切片的演化影响集预测(ESISP)方法具有较高的查全率和较低的存伪率,能有效辅助软件开发人员和维护人员作出相关决策。

    一种基于提示学习和双信息源融合的API推荐方法

    公开(公告)号:CN117034135B

    公开(公告)日:2025-05-27

    申请号:CN202310778665.4

    申请日:2023-06-29

    Applicant: 南通大学

    Abstract: 本发明提供一种基于提示学习和双信息源融合的API推荐方法,包括如下步骤:S1、从SO问答网站StackOverflow中筛选出与API相关的问题,捕获对话文本中的单词;S2、从API参考文档中提取相关信息;S3、通过两类API知识的融合,构建基于启发式方法的API与问答QA的关系;S4、将融合的知识表示训练BERT变体模型RoBERTa;S5、输入查询语句得到一组候选API;S6、利用提示学习计算概率对候选API进行重排序。本发明利用双信息源融合,来提高API检索的效率,API参考文档和SO问答网站相互补充,可共同为API查询与检索提供支持。本发明在训练模型阶段,不同于以往对模型的微调,将查询语句作为提示符,提供了足够的上下文信息使RoBERTa模型适应API推荐任务,提高了API推荐的准确性。

    一种基于优化实例选择的跨项目软件缺陷预测方法

    公开(公告)号:CN115269377B

    公开(公告)日:2023-07-11

    申请号:CN202210717428.2

    申请日:2022-06-23

    Applicant: 南通大学

    Abstract: 本发明提供一种基于优化实例选择的跨项目软件缺陷预测方法,包括如下步骤:S1、构建项目向量集PVS;S2、构建目标实例优化索引IPI;S3、构建预训练集TPRED;S4、构建目标项目的优化索引TPOI;S5、构建基于优化实例选择的训练集BOD;S6、构建基于优化实例选择的跨项目软件缺陷预测方法BOICP。本发明提出一种基于优化实例选择的跨项目软件缺陷预测方法,通过构建目标实例全局特征向量实现源实例选择,然后使用相关性分析进一步优化实例选择,使用该方法构建的训练集有利于选择可靠的实例数据,实现更好的跨项目缺陷预测效果。

    一种基于域特征分布的跨项目软件缺陷预测方法

    公开(公告)号:CN115269378A

    公开(公告)日:2022-11-01

    申请号:CN202210717461.5

    申请日:2022-06-23

    Applicant: 南通大学

    Abstract: 本发明提供一种基于域特征分布的跨项目软件缺陷预测方法,包括如下步骤:S1、构建项目向量集PVS;S2、构建源域实例候选索引集SDCI;S3、构建源域实例候选集SDCS;S4、构建适应域特征分布索引DFDI;S5、构建适应域特征分布的训练集DFDD;S6、构建基于域特征分布的跨项目软件缺陷预测方法DFDCP。本发明提出一种基于域特征分布的跨项目软件缺陷预测方法,在源域实例候选集中,由目标实例的去均值化向量进行实例再选择,构建适应域特征分布的实例集,使用该方法构建的训练集有利于进一步建立精确的跨项目缺陷预测模型,实现更好的跨项目缺陷预测效果。

    一种基于JEAN的软件代码推荐方法

    公开(公告)号:CN112966095B

    公开(公告)日:2022-09-06

    申请号:CN202110368686.X

    申请日:2021-04-06

    Applicant: 南通大学

    Abstract: 本发明提供一种基于JEAN的软件代码推荐方法,主要用于解决在软件开发中向开发人员推荐代码段的问题。包括如下步骤:S1、构建JEAN模型;S2、从GitHub上收集带有描述的java代码段数据集,并对其预处理用作训练集,用来训练JEAN模型;S3、构建代码库,使用JEAN模型中的代码嵌入表示模块将代码库中的所有代码段嵌入成代码向量;S4、开发人员进行在线搜索代码,输入查询后,JEAN模型中的描述嵌入表示模块将查询嵌入成查询向量;S5、使用余弦相似性计算查询向量和代码库中的所有代码向量之间的相似性,返回与查询向量最相关的向量的代码段。本发明能够有效地帮助软件开发人员根据自己的需求推荐合适的代码段,具有较高的精确率和效率。

    一种基于实例选择的跨项目缺陷预测方法

    公开(公告)号:CN114896150A

    公开(公告)日:2022-08-12

    申请号:CN202210503567.5

    申请日:2022-05-09

    Applicant: 南通大学

    Abstract: 本发明属于软件缺陷预测技术领域,提供一种基于实例选择的跨项目缺陷预测方法,包括如下步骤:S1、构建分类实例集CID;S2、将分类实例集中的所有度量值中心化EMC;S3、组合分布特征向量CDFV;S4、实例间距离计算BIDCM;S5、构建最相似源实例索引集;S6、构建训练集ND;S7、构建跨项目缺陷预测分类方法;S8、构建基于实例选择的跨项目缺陷预测方法ISCPDP。本发明通过选择组合分布特征向量与目标组合分布特征向量最相似的实例集组建训练集,优化后的训练集有利于建立精确的缺陷预测模型,进一步提高跨项目缺陷预测效率。

    一种树序列化嵌入的软件代码推荐方法

    公开(公告)号:CN114647418A

    公开(公告)日:2022-06-21

    申请号:CN202210336803.9

    申请日:2022-03-31

    Applicant: 南通大学

    Abstract: 本发明提供一种树序列化嵌入的软件代码推荐方法,主要用于解决开发过程中出现的代码功能实现问题,包括如下步骤:步骤1、通过解析抽象语法树AST分别将向量化的代码和注释嵌入到向量空间中并计算相似度,建立TCDEnn模型;步骤2、收集java代码,通过AST节点提取进行预处理构建训练集和测试集,用来训练和测试TCDEnn模型;步骤3、收集高质量的java代码,建立代码搜索库,开发人员输入描述查询代码搜素库,对搜索代码库中的AST向量与功能描述向量计算相似度,将相似度值最高的k个代码向量返回给开发人员。本发明可以通过直接描述功能需求的形式得到对应代码,有效节省开发时间,提高开发效率。

    一种短文本实体消歧方法

    公开(公告)号:CN112906397B

    公开(公告)日:2021-11-19

    申请号:CN202110366911.6

    申请日:2021-04-06

    Applicant: 南通大学

    Abstract: 本发明提供一种基于深度学习的短文本实体消歧方法,主要用于解决语句中的实体在不同的短文本中存在含义不同指向的问题,包括如下步骤:步骤1、使用jieba分词技术对语句进行分词,找出待消歧实体,并且使用上市公司实体及其缩写作为词典;步骤2、对句子以待消歧实体为中心,32字大小进行切分;步骤3、将含有待消歧实体的语句转换为Bidirectional Encoder Representation from Transformers(BERT)词向量模型;步骤4、将词向量模型分批次放入到Long‑Short Term Memory RNN(LSTM)模型中,通过交叉熵进行损失函数计算,不断优化参数,获得最终模型。本发明不仅可以在特殊领域如公司实体上取得很好的结果,也可以在一般领域取得不错的结果。

Patent Agency Ranking