-
公开(公告)号:CN109408100A
公开(公告)日:2019-03-01
申请号:CN201811046975.2
申请日:2018-09-08
Applicant: 扬州大学
IPC: G06F8/70
Abstract: 本发明公开了一种基于多源数据的软件缺陷信息融合方法,该方法针对新的bug报告,通过对bug信息进行按因素标签化处理,采用基于多因素查询的信息检索方法检索Stack OverFlow中的问答信息,将获取到的Top-N问答信息补全新的bug报告,然后按照多因素查询检索软件缺陷库,得到与新的软件缺陷相关性高的软件缺陷信息,并将它们进行软件缺陷信息融合。该方法结合了软件缺陷库和Stack OverFlow中的相关bug信息,能够有效解决新的软件缺陷信息稀疏的问题,从而帮助软件开发和维护人员更准确地理解软件缺陷。
-
公开(公告)号:CN109492113A
公开(公告)日:2019-03-19
申请号:CN201811306356.2
申请日:2018-11-05
Applicant: 扬州大学
IPC: G06F16/36
Abstract: 本发明公开了一种面向软件缺陷知识的实体、关系联合抽取方法,包括以下步骤:首先采集开源缺陷库的文本数据,并对所述文本数据进行预处理,获得缺陷文本数据语料库;然后从缺陷文本数据语料库提取描述缺陷的语句S,对S进行处理并作为后续的输入语句;之后构建基于转移系统的实体、关系联合抽取模型;然后结合建立的基于转移系统的实体、关系联合抽取模型,获取上述输入语句对应的实体集合E以及关系集合R;最后将实体集合E以及关系集合R输出,完成实体、关系的联合抽取。本发明可以将缺陷实体抽取和关系识别这两个子任务紧密联系起来,最终抽取出缺陷文本的关键信息,帮助软件开发者快速、高效的了解缺陷信息以完成缺陷修复。
-
公开(公告)号:CN109492106B
公开(公告)日:2022-05-13
申请号:CN201811346186.0
申请日:2018-11-13
Applicant: 扬州大学
Abstract: 本发明公开了一种文本代码相结合的缺陷原因自动分类方法,包括以下步骤:首先提取缺陷报告中的文本内容及附录中的patch文件,之后进行数据清洗形成缺陷数据集;选取状态为VERIFIED FIXED且附有patch文件的缺陷,构建待分类缺陷集;抽取待分类缺陷集中缺陷的文本内容并进行自然语言处理,之后对其进行类别标注,构建缺陷原因分类集;从patch文件中抽取缺陷修复前、后的diff代码,获取缺陷修复中修改的diff代码对应的缺陷修改结构类别;利用深度学习方法对缺陷原因分类集进行训练,获取缺陷原因自动分类器。本发明通过深度学习模型挖掘缺陷报告的语义信息和diff结构特征,能准确预测缺陷的原因类别,明确发生缺陷的可疑代码结构,从而更准确的引导后续的缺陷定位和缺陷修复。
-
公开(公告)号:CN107491299B
公开(公告)日:2021-09-10
申请号:CN201710554338.5
申请日:2017-07-04
Applicant: 扬州大学
Abstract: 本发明涉及面向多源软件开发数据融合的开发者画像建模方法。本发明从GitHub中的README.md、代码文本和Stack Overflow中Answers中的代码文本、Answers中的描述文本提取特征和API,计算出特征的相似度和API的相似度,再计算两者的综合相似度,并排序,综合相似度大于某一个值(θ)时,即认为GitHub的developer1与Stack Overflow的developer2为同一用户,把属于同一用户的数据进行融合,分别将开发者的技能、活动、开发者与代码的关系、开发者与开发者之间的关系挖掘出来,用画像综合表示出来。本发明克服了无法为全面完成软件工程任务提供推荐的缺陷。本发明利用多源数据,开发者与代码结合,对开发者的画像进行建模。
-
公开(公告)号:CN111597347A
公开(公告)日:2020-08-28
申请号:CN202010330518.7
申请日:2020-04-24
Applicant: 扬州大学
IPC: G06F16/36 , G06F40/295 , G06F16/33 , G06F16/215
Abstract: 本发明公开了一种知识嵌入的缺陷报告重构方法及装置,属于软件缺陷领域。本发明将信息检索和信息抽取技术相结合,首先将异构的历史缺陷数据转化为统一的知识表示,进行系统化的组织管理便于复用。在此基础上,从原始查询中学习词嵌入,从缺陷知识图谱中获取实体嵌入和实体上下文嵌入,并采用深度学习技术,将上述三种不同级别嵌入进行融合,生成一个统一的缺陷表示。该重构方法从细粒度的实体级别充分挖掘原始查询内部语义信息,扩展外部背景知识,并保留了查询原始结构,显著提高了缺陷检索的准确率。同时重构后的缺陷嵌入向量可直接作为匹配模型输入,广泛适于多种基于信息检索的缺陷分析任务。
-
公开(公告)号:CN109376247A
公开(公告)日:2019-02-22
申请号:CN201811346154.0
申请日:2018-11-13
Applicant: 扬州大学
Abstract: 本发明公开了一种基于关联规则的软件缺陷自动分类方法,包括以下步骤:首先提取缺陷报告中的文本内容,并对其进行预处理;之后随机采样状态为VERIFIED FIXED的缺陷,构建待分类缺陷集;再根据缺陷表象、缺陷发生原因对待分类缺陷集中的每一个缺陷进行缺陷表象类别和缺陷发生原因类别标注,获得缺陷表象类别分类集、缺陷发生原因类别分类集;然后挖掘不同缺陷表象类别、缺陷发生原因类别之间的关联规则,从中筛选出强关联规则并将其转化为关系矩阵;最后利用深度学习方法对缺陷表象类别分类集进行训练,获取缺陷自动分类器。本发明同时从缺陷表象和产生原因两个维度对缺陷进行细粒度的自动分类,解决了现有技术中因缺陷信息量少而无法准确原因分类的短板。
-
公开(公告)号:CN107832781A
公开(公告)日:2018-03-23
申请号:CN201710973976.0
申请日:2017-10-18
Applicant: 扬州大学
CPC classification number: G06K9/6218 , G06K9/6256 , G06K9/726
Abstract: 本发明涉及一种面向多源数据的软件缺陷表示学习方法。本发明对多源数据处理并形成缺陷数据集,从中选取训练集、测试集,选用word2vec对缺陷数据集进行词向量学习后经过聚类得到相似词及相似度并作为命名实体识别技术的特征输入,经过领域命名实体识别,选择出现最多的为关键命名实体,采用实体共现分析技术对关键命名实体进行共现分析,缺陷描述由词的组合转换为共现实体对和分布实体的集合,实现软件缺陷表示,最终将缺陷描述表示成一个特征向量。本发明克服了没有就软件缺陷本身的结构特征进行分析的缺陷。本发明利用词向量技术处理文本,结合多源数据,提取软件缺陷命名实体,分析共现实体对,从知识的角度对软件缺陷进行表示。
-
公开(公告)号:CN107491299A
公开(公告)日:2017-12-19
申请号:CN201710554338.5
申请日:2017-07-04
Applicant: 扬州大学
CPC classification number: G06F17/30705 , G06F8/30 , G06F17/2785
Abstract: 本发明涉及面向多源软件开发数据融合的开发者画像建模方法。本发明从GitHub中的README.md、代码文本和Stack Overflow中Answers中的代码文本、Answers中的描述文本提取特征和API,计算出特征的相似度和API的相似度,再计算两者的综合相似度,并排序,综合相似度大于某一个值(θ)时,即认为GitHub的developer1与Stack Overflow的developer2为同一用户,把属于同一用户的数据进行融合,分别将开发者的技能、活动、开发者与代码的关系、开发者与开发者之间的关系挖掘出来,用画像综合表示出来。本发明克服了无法为全面完成软件工程任务提供推荐的缺陷。本发明利用多源数据,开发者与代码结合,对开发者的画像进行建模。
-
公开(公告)号:CN109376247B
公开(公告)日:2022-05-13
申请号:CN201811346154.0
申请日:2018-11-13
Applicant: 扬州大学
Abstract: 本发明公开了一种基于关联规则的软件缺陷自动分类方法,包括以下步骤:首先提取缺陷报告中的文本内容,并对其进行预处理;之后随机采样状态为VERIFIED FIXED的缺陷,构建待分类缺陷集;再根据缺陷表象、缺陷发生原因对待分类缺陷集中的每一个缺陷进行缺陷表象类别和缺陷发生原因类别标注,获得缺陷表象类别分类集、缺陷发生原因类别分类集;然后挖掘不同缺陷表象类别、缺陷发生原因类别之间的关联规则,从中筛选出强关联规则并将其转化为关系矩阵;最后利用深度学习方法对缺陷表象类别分类集进行训练,获取缺陷自动分类器。本发明同时从缺陷表象和产生原因两个维度对缺陷进行细粒度的自动分类,解决了现有技术中因缺陷信息量少而无法准确原因分类的短板。
-
公开(公告)号:CN107832781B
公开(公告)日:2021-09-14
申请号:CN201710973976.0
申请日:2017-10-18
Applicant: 扬州大学
Abstract: 本发明涉及一种面向多源数据的软件缺陷表示学习方法。本发明对多源数据处理并形成缺陷数据集,从中选取训练集、测试集,选用word2vec对缺陷数据集进行词向量学习后经过聚类得到相似词及相似度并作为命名实体识别技术的特征输入,经过领域命名实体识别,选择出现最多的为关键命名实体,采用实体共现分析技术对关键命名实体进行共现分析,缺陷描述由词的组合转换为共现实体对和分布实体的集合,实现软件缺陷表示,最终将缺陷描述表示成一个特征向量。本发明克服了没有就软件缺陷本身的结构特征进行分析的缺陷。本发明利用词向量技术处理文本,结合多源数据,提取软件缺陷命名实体,分析共现实体对,从知识的角度对软件缺陷进行表示。
-
-
-
-
-
-
-
-
-