-
公开(公告)号:CN118094118A
公开(公告)日:2024-05-28
申请号:CN202410522089.1
申请日:2024-04-28
Applicant: 鹏城实验室
IPC: G06F18/10 , G06F16/215 , G06F17/18 , G06F18/213 , G06F18/23
Abstract: 本申请实施例提供了一种数据集质量评估方法、系统、电子设备及存储介质,属于数据处理技术领域。方法包括:获取目标数据集和目标任务样本集;确定每个样本数据的重叠度,并基于重叠度确定每个样本数据的第一单样本评分;获取每个类别下预设的置信度阈值,并基于样本数据的伪标签确定对应的置信度,根据置信度和对应类别下的置信度阈值确定每个样本数据的第二单样本评分;在相同类别下,确定多个样本数据与多个目标任务数据之间的分布距离,根据不同类别下的分布距离确定目标数据集与目标任务样本集之间的数据集评分;基于第一单样本评分、第二单样本评分和数据集评分确定目标数据集的质量评估结果,提高数据集的评估质量。
-
公开(公告)号:CN118094118B
公开(公告)日:2024-08-27
申请号:CN202410522089.1
申请日:2024-04-28
Applicant: 鹏城实验室
IPC: G06F18/10 , G06F16/215 , G06F17/18 , G06F18/213 , G06F18/23
Abstract: 本申请实施例提供了一种数据集质量评估方法、系统、电子设备及存储介质,属于数据处理技术领域。方法包括:获取目标数据集和目标任务样本集;确定每个样本数据的重叠度,并基于重叠度确定每个样本数据的第一单样本评分;获取每个类别下预设的置信度阈值,并基于样本数据的伪标签确定对应的置信度,根据置信度和对应类别下的置信度阈值确定每个样本数据的第二单样本评分;在相同类别下,确定多个样本数据与多个目标任务数据之间的分布距离,根据不同类别下的分布距离确定目标数据集与目标任务样本集之间的数据集评分;基于第一单样本评分、第二单样本评分和数据集评分确定目标数据集的质量评估结果,提高数据集的评估质量。
-