-
公开(公告)号:CN111460401B
公开(公告)日:2023-08-22
申请号:CN202010431048.3
申请日:2020-05-20
Applicant: 南京大学
IPC: G06F21/16 , G06F40/216 , G06F18/22 , G06F18/243
Abstract: 本发明属于计算机技术领域,具体涉及一种结合软件制品过程信息和文本相似度的制品自动追踪方法,包括:选择制品,挖掘待关联制品间的追踪关系,划分显隐式追踪关系;抽取待关联制品的过程信息;计算待关联制品间的文本相似度;为显式追踪关系的制品选定过程特征及关系结果标签;隐式追踪关系的制品间的追踪关系人工打标签,并借助中间制品增加相关特征;预处理数据,获取样本集,选择机器学习分类算法,训练模型,预测制品间是否存在追踪关系。本发明从过程数据出发,解决了信息检索方法受限于文本质量以及词汇失配的问题,且可以追踪多种制品间的追踪关系。本发明相较于传统依赖文本相似度的信息检索方法,精确率和召回率均有大幅度提升。
-
公开(公告)号:CN113378907B
公开(公告)日:2024-01-09
申请号:CN202110626138.2
申请日:2021-06-04
Applicant: 南京大学
IPC: G06F30/27
Abstract: 本发明公开了增强数据预处理过程的自动化软件可追踪性恢复方法,包括:选取待恢复追踪关系的制品,抽取制品相关字段进行数据清洗并开展特征工程,获取样本数据集;利用标签标记方法,将样本数据集划分为标记数据集与缺失追踪数据集;利用四折时间序列验证方法,将标记数据集切分为标记训练集与测试集;利用半监督不平衡学习框架,组合标记训练集与缺失追踪数据集,生成新的训练集;利用多种重采样方式,均衡训练集,训练二分类模型,评估其性能,恢复制品间的追踪关系;从增强数据预处理过程出发,通过多种增强措施应对项目制品多、数据质量差、样本数据不平衡等问题,在F1值、精确率、召回率上均有大幅度提升。(56)对比文件杨丙贤等“.基于软件结构的文档与代码间可追踪性研究”《.计算机科学与探索》.2013,全文.张一帆等“.自然语言数据驱动的智能化软件安全评估方法”《.软件学报》.2018,全文.荣国平.“软件过程与管理方法综述”《.软件学报》.2019,全文.李锐“.基于表示学习的社交网络链接预测方法研究”《.中国硕士学位论文全文数据库》.2021,全文.邱昱“.面向移动广告的欺诈检测算法研究”《.中国硕士学位论文全文数据库》.2021,全文.Xin Xia等“.Towards more accuratemulti-label software behavior learning”.《2014 Software Evolution Week - IEEEConference on Software Maintenance,Reengineering, and Reverse Engineering(CSMR-WCRE)》.2014,全文.Rajasekar Venkatesan等.“A NovelOnline Real-time Classifier for Multi-label Data Streams”《.https://arxiv.org/abs/1608.08905》.2016,全文.Jing Chen等“.Semantics-Aware PrivacyRisk Assessment Using Self-LearningWeight Assignment for Mobile Apps”《.IEEETransactions on Dependable and SecureComputing》.2018,全文.Simin Wang等“.Machine/Deep Learningfor Software Engineering: A SystematicLiterature Review”《.IEEE Transactions onSoftware Engineering》.2023,全文.Tanujit Chakraborty等.“Hellinger Net:A Hybrid Imbalance Learning Model toImprove Software Defect Prediction”《.IEEETransactions on Reliability》.2020,全文.
-
公开(公告)号:CN113378907A
公开(公告)日:2021-09-10
申请号:CN202110626138.2
申请日:2021-06-04
Applicant: 南京大学
IPC: G06K9/62
Abstract: 本发明公开了增强数据预处理过程的自动化软件可追踪性恢复方法,包括:选取待恢复追踪关系的制品,抽取制品相关字段进行数据清洗并开展特征工程,获取样本数据集;利用标签标记方法,将样本数据集划分为标记数据集与缺失追踪数据集;利用四折时间序列验证方法,将标记数据集切分为标记训练集与测试集;利用半监督不平衡学习框架,组合标记训练集与缺失追踪数据集,生成新的训练集;利用多种重采样方式,均衡训练集,训练二分类模型,评估其性能,恢复制品间的追踪关系;从增强数据预处理过程出发,通过多种增强措施应对项目制品多、数据质量差、样本数据不平衡等问题,在F1值、精确率、召回率上均有大幅度提升。
-
公开(公告)号:CN115187196A
公开(公告)日:2022-10-14
申请号:CN202210745437.2
申请日:2022-06-28
Applicant: 南京大学
IPC: G06Q10/10 , G06F8/70 , G06F16/215 , G06F16/22 , G06F16/2458 , G06F16/25
Abstract: 本发明提供了一种软件项目中工程师与软件制品关系网络生成的工具,包括数据获取模块、关系提取模块、数据存储模块和关系展示模块。其中数据获取模块负责从数据源中获取关系网络生成所需要的各类软件开发过程数据以及制品数据,并进行数据清洗;关系提取模块将对获取到的数据做进一步分析,提取出工程师和各类制品之间的关系;数据存储模块将对识别出的关系数据进行存储,为后续关系网络结果的展示提供支持;关系展示模块将以关系网络图的形式将得到的关系进行可视化展示。本发明通过建立一套完整的软件项目中工程师与软件制品关系网络生成流程,识别出工程师同项目各制品间的关联关系,帮助项目成员进行数据溯源,优化软件开发过程,支持项目决策的制定,降低项目风险。
-
公开(公告)号:CN111460401A
公开(公告)日:2020-07-28
申请号:CN202010431048.3
申请日:2020-05-20
Applicant: 南京大学
IPC: G06F21/16 , G06F40/216 , G06K9/62
Abstract: 本发明属于计算机技术领域,具体涉及一种结合软件制品过程信息和文本相似度的制品自动追踪方法,包括:选择制品,挖掘待关联制品间的追踪关系,划分显隐式追踪关系;抽取待关联制品的过程信息;计算待关联制品间的文本相似度;为显式追踪关系的制品选定过程特征及关系结果标签;隐式追踪关系的制品间的追踪关系人工打标签,并借助中间制品增加相关特征;预处理数据,获取样本集,选择机器学习分类算法,训练模型,预测制品间是否存在追踪关系。本发明从过程数据出发,解决了信息检索方法受限于文本质量以及词汇失配的问题,且可以追踪多种制品间的追踪关系。本发明相较于传统依赖文本相似度的信息检索方法,精确率和召回率均有大幅度提升。
-
-
-
-