-
公开(公告)号:CN112148605A
公开(公告)日:2020-12-29
申请号:CN202010999235.1
申请日:2020-09-22
Applicant: 华南理工大学 , 华南理工大学梅州技术研究院
IPC: G06F11/36
Abstract: 本发明公开了一种基于谱聚类的半监督学习的软件缺陷预测方法,包含以下步骤:1)获取原始数据,进行数据预处理操作,得到处理后的特征矩阵;2)判断特征矩阵有无标签:对于无标签数据,通过谱聚类进行聚类;通过软件缺陷预测的启发式规则对获得的聚类进行标签操作,得到伪标签,然后转到步骤3);对于有标签数据,直接转到步骤3);3)根据数据分布计算特征偏离分数并进行特征选择,其中原有标签数据所占权重大于伪标签数据所占权重;4)根据新的特征矩阵再次进行聚类和打标签操作,得到预测结果。本发明减少了无关及冗余特征对模型结果的影响,利用了项目原有标签数据的信息,能够有效提高软件缺陷预测结果的准确性,增加模型的适用性。
-
公开(公告)号:CN112148605B
公开(公告)日:2022-05-20
申请号:CN202010999235.1
申请日:2020-09-22
Applicant: 华南理工大学 , 华南理工大学梅州技术研究院
IPC: G06F11/36
Abstract: 本发明公开了一种基于谱聚类的半监督学习的软件缺陷预测方法,包含以下步骤:1)获取原始数据,进行数据预处理操作,得到处理后的特征矩阵;2)判断特征矩阵有无标签:对于无标签数据,通过谱聚类进行聚类;通过软件缺陷预测的启发式规则对获得的聚类进行标签操作,得到伪标签,然后转到步骤3);对于有标签数据,直接转到步骤3);3)根据数据分布计算特征偏离分数并进行特征选择,其中原有标签数据所占权重大于伪标签数据所占权重;4)根据新的特征矩阵再次进行聚类和打标签操作,得到预测结果。本发明减少了无关及冗余特征对模型结果的影响,利用了项目原有标签数据的信息,能够有效提高软件缺陷预测结果的准确性,增加模型的适用性。
-