基于二次注意力机制的开源软件项目开发人员推荐方法

    公开(公告)号:CN111915216B

    公开(公告)日:2023-09-12

    申请号:CN202010818089.8

    申请日:2020-08-14

    Applicant: 南京大学

    Inventor: 潘国盛 姚远 徐锋

    Abstract: 本发明公开了一种基于二次注意力机制的开源软件项目开发人员推荐方法,通过二次注意力机制,基于项目团队成员之间的关系、项目团队与项目的关系以及项目的文本描述信息等,对项目团队特征、项目特征进行建模。首先,通过网络表示学习以及文本表示学习,获得开发人员和项目的文本特征。然后利用第一层注意力机制,学习出团队现有开发人员关于项目团队的相对权重,从而获得项目团队的特征。接着利用第二层注意力机制,学习出项目团队与项目文档关于项目的相对权重,从而获得项目总体的特征。最后,计算项目整体特征与开发人员特征之间的相似度,并根据相似度排序为开源软件项目推荐合适的开发人员。

    一种基于属性图聚类的复合代码提交分解方法

    公开(公告)号:CN116521214A

    公开(公告)日:2023-08-01

    申请号:CN202310464002.5

    申请日:2023-04-26

    Applicant: 南京大学

    Inventor: 姚远 徐锋 陈思宇

    Abstract: 本发明公开了一种基于属性图聚类的复合代码提交分解方法。本方法首先以复合代码提交中的代码语句为节点、代码间依赖关系为边构建提交图,然后使用高阶图卷积神经网络模型获取各个节点的属性特征,最后基于近邻传播聚类对节点进行聚类,完成分解。本方法相比于现有方法,结合了代码语句的文本内容和代码语句之间的依赖关系,实现了复合代码提交自动化分解。在已有的数据集上的实验结果表明,本方法较同类工作在复合代码提交分解问题上具有更好的效果。

    一种基于缺失数据填补的层次式大气臭氧浓度预测方法

    公开(公告)号:CN116384565A

    公开(公告)日:2023-07-04

    申请号:CN202310295454.5

    申请日:2023-03-24

    Applicant: 南京大学

    Inventor: 姚远 徐锋 王弘毅

    Abstract: 本发明公开一种基于缺失数据填补的层次式大气臭氧浓度预测方法,首先通过季节性时间序列分解算法,将含有缺失数据的大气污染物数据以及气象数据分解为平滑趋势项、季节性周期项与短期波动项。然后使用基于时空序列建模的数据填补算法,对缺失数据进行有效的填补,获得连续数据。最后基于多层次视图臭氧预测方法,以及多次采样预测方法,构建大气臭氧浓度预测模型。本发明综合考虑了大气污染物数据以及气象数据的季节性特征,分解后的序列能够更好反映数据的情况;时空序列数据填补方法能够考虑数据的时空相关性;多层次视图臭氧浓度预测方法,能够表征污染物多尺度扩散传输情况;多次采样方法,能够获得更加稳定而有效的预测结果。

    一种基于置信度差异的神经网络模型后门检测方法

    公开(公告)号:CN116305103A

    公开(公告)日:2023-06-23

    申请号:CN202310325103.4

    申请日:2023-03-30

    Applicant: 南京大学

    Inventor: 姚远 徐锋 王通

    Abstract: 本发明公开了一种基于置信度差异的神经网络模型的后门检测方法,设计了一套补丁生成流水线,可以检测模型及其训练数据是否存在被后门攻击的可能。本发明通过检测高、低置信度数据是否隶属于同一个分布来判断模型是否被后门攻击。具体包括按照标签对高、低置信度数据采样;在高置信度数据上学习补丁;将补丁应用到低置信度数据上,并计算转换率;对所有标签的转换率进行异常值检测。本发明能够检测复杂后门攻击的触发器,并且对触发器的大小没有要求。

    一种基于公平性测试的数据消歧方法

    公开(公告)号:CN114722966A

    公开(公告)日:2022-07-08

    申请号:CN202210461268.X

    申请日:2022-04-28

    Applicant: 南京大学

    Inventor: 姚远 徐锋 刘冀

    Abstract: 本发明公开了一种基于公平性测试的数据消歧方法,设计了多种公平性测试方法,可以对数据集中的特征和样本进行公平性评分,其中包括基于互信息对特征进行公平性测试和基于条件概率对样本进行公平性测试。公平性测试给出的评分大小表示了数据集中特征和样本所携带的歧视信息含量,可以依据该评分将机器学习训练数据集中显著含有歧视信息的特征和样本筛选出来并清除。在Adult等多个开源数据集上的实验结果表明,本方法较同类工作在数据消歧问题上具有更好的效果。

    一种基于精确化嵌入表示的开源软件开发团队扩展方法

    公开(公告)号:CN108549979B

    公开(公告)日:2021-12-07

    申请号:CN201810281538.2

    申请日:2018-04-02

    Applicant: 南京大学

    Abstract: 本发明公开一种基于精确化嵌入表示的开源软件开发团队扩展方法,着重考虑当前的软件项目、团队现有成员以及备选开发者三者之间的联系,将软件项目、团队现有成员以及备选开发者嵌入到一个地位的表示空间里,然后通过不断优化基于此构建的神经网络来精确化这些嵌入表示。首先,结合软件项目和现有成员的嵌入表示,并将其作为当前团队的整体状态;然后,通过推荐系统中的协同过滤思想来挖掘备选开发者和软件项目这两个嵌入表示之间的联系;最后,将项目领袖作为现有团队成员的代表,并利用开发者之间的社交关系来对备选开发者和团队成员的嵌入表示进行匹配。在开源软件社区Github之数据集上的实验表明,本方法比传统方法具有更好的预测效果,即能够找到更好的备选开发者。

    一种基于缺陷报告的缺陷代码路径定位方法

    公开(公告)号:CN110162478B

    公开(公告)日:2021-07-30

    申请号:CN201910449837.7

    申请日:2019-05-28

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于缺陷报告的缺陷代码路径定位方法,基于深度学习的方法从已修复的缺陷报告和对应修复代码路径中学习出文本与代码之间的关联关系,从而对新缺陷报告进行关联缺陷代码文件路径的预测。具体包括2个部分:(1)基于缺陷报告的缺陷代码路径树生成模型BRSP;(2)基于规则约束的缺陷代码路径树预测算法。本发明的优点是可以根据缺陷报告给出关联的缺陷代码文件路径信息,辅助开发人员进行缺陷代码定位,节省开发人员的时间和精力,从而提高软件项目的维护效率。

    一种基于监督主题模型的文本标签推荐方法

    公开(公告)号:CN107239564B

    公开(公告)日:2021-03-19

    申请号:CN201710442281.X

    申请日:2017-06-13

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于监督主题模型的文本标签推荐方法,通过考虑了标签及其相关词频繁出现于对应文本的特点,给出了一个新的监督文本主题模型Sim2Word,从而较好地解决了文本关键词抽取方法预测效率低和文本主题分析方法预测准确率低的问题。本方法分为两个主要步骤,首先基于词向量技术获取已有标签的相关词数据,之后利用标签和相关词训练标签预测模型,最后基于模型预测新文本的标签。在收集于StackOverflow等真实数据集上的实验表明,该方法较传统的文本标签推荐技术具有更高识别准确率。

    基于二次注意力机制的开源软件项目开发人员推荐方法

    公开(公告)号:CN111915216A

    公开(公告)日:2020-11-10

    申请号:CN202010818089.8

    申请日:2020-08-14

    Applicant: 南京大学

    Inventor: 潘国盛 姚远 徐锋

    Abstract: 本发明公开了一种基于二次注意力机制的开源软件项目开发人员推荐方法,通过二次注意力机制,基于项目团队成员之间的关系、项目团队与项目的关系以及项目的文本描述信息等,对项目团队特征、项目特征进行建模。首先,通过网络表示学习以及文本表示学习,获得开发人员和项目的文本特征。然后利用第一层注意力机制,学习出团队现有开发人员关于项目团队的相对权重,从而获得项目团队的特征。接着利用第二层注意力机制,学习出项目团队与项目文档关于项目的相对权重,从而获得项目总体的特征。最后,计算项目整体特征与开发人员特征之间的相似度,并根据相似度排序为开源软件项目推荐合适的开发人员。

    一种基于文本和开发者活跃度的软件缺陷辅助分派方法

    公开(公告)号:CN107480141A

    公开(公告)日:2017-12-15

    申请号:CN201710753984.4

    申请日:2017-08-29

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于文本和开发者活跃度的软件缺陷辅助分派方法,通过考虑缺陷报告的文本信息以及开发者的活跃程度,一方面利用双向循环网络加池化方法提取缺陷报告的文本特征,一方面利用单向循环网络提取特定时刻的开发者活跃度特征,并融合两者,给出了一个新的基于缺陷报告文本和开发者活跃度的缺陷分派模型,从而较好地提高了辅助缺陷分派准确率低的问题。在Eclipse等四个不同的开源项目数据集上的实验结果表明,本方法较同类工作在缺陷分派预测准确率上有显著提升。

Patent Agency Ranking