核心集构造方法、装置、设备及介质

    公开(公告)号:CN118135357B

    公开(公告)日:2024-08-27

    申请号:CN202410551155.8

    申请日:2024-05-07

    Abstract: 本申请实施例提供了核心集构造方法、装置、设备及介质,其中方法通过对图像数据集的图像数据进行特征提取;将图像数据集的数据特征映射至特征空间得到图像数据集的特征分布;对图像数据集的特征分布进行聚类得到类别数据的特征分布的中心特征;根据图像数据集的特征分布和中心特征确定图像数据集到核心集的分布间的代价矩阵;根据中心特征和代价矩阵确定图像数据集到核心集的分布间的最优传输距离矩阵;从图像数据集中确定使最优传输距离矩阵满足预设条件的目标图像数据并将目标图像数据组成核心集;能够有效地排除远离数据特征分布的噪声样本,并筛选出重要的样本组成核心集,进而起到加速模型训练的目的。

    数据集质量评估方法、系统、电子设备及存储介质

    公开(公告)号:CN118094118A

    公开(公告)日:2024-05-28

    申请号:CN202410522089.1

    申请日:2024-04-28

    Abstract: 本申请实施例提供了一种数据集质量评估方法、系统、电子设备及存储介质,属于数据处理技术领域。方法包括:获取目标数据集和目标任务样本集;确定每个样本数据的重叠度,并基于重叠度确定每个样本数据的第一单样本评分;获取每个类别下预设的置信度阈值,并基于样本数据的伪标签确定对应的置信度,根据置信度和对应类别下的置信度阈值确定每个样本数据的第二单样本评分;在相同类别下,确定多个样本数据与多个目标任务数据之间的分布距离,根据不同类别下的分布距离确定目标数据集与目标任务样本集之间的数据集评分;基于第一单样本评分、第二单样本评分和数据集评分确定目标数据集的质量评估结果,提高数据集的评估质量。

    核心集构造方法、装置、设备及介质

    公开(公告)号:CN118135357A

    公开(公告)日:2024-06-04

    申请号:CN202410551155.8

    申请日:2024-05-07

    Abstract: 本申请实施例提供了核心集构造方法、装置、设备及介质,其中方法通过对图像数据集的图像数据进行特征提取;将图像数据集的数据特征映射至特征空间得到图像数据集的特征分布;对图像数据集的特征分布进行聚类得到类别数据的特征分布的中心特征;根据图像数据集的特征分布和中心特征确定图像数据集到核心集的分布间的代价矩阵;根据中心特征和代价矩阵确定图像数据集到核心集的分布间的最优传输距离矩阵;从图像数据集中确定使最优传输距离矩阵满足预设条件的目标图像数据并将目标图像数据组成核心集;能够有效地排除远离数据特征分布的噪声样本,并筛选出重要的样本组成核心集,进而起到加速模型训练的目的。

    数据集质量评估方法、系统、电子设备及存储介质

    公开(公告)号:CN118094118B

    公开(公告)日:2024-08-27

    申请号:CN202410522089.1

    申请日:2024-04-28

    Abstract: 本申请实施例提供了一种数据集质量评估方法、系统、电子设备及存储介质,属于数据处理技术领域。方法包括:获取目标数据集和目标任务样本集;确定每个样本数据的重叠度,并基于重叠度确定每个样本数据的第一单样本评分;获取每个类别下预设的置信度阈值,并基于样本数据的伪标签确定对应的置信度,根据置信度和对应类别下的置信度阈值确定每个样本数据的第二单样本评分;在相同类别下,确定多个样本数据与多个目标任务数据之间的分布距离,根据不同类别下的分布距离确定目标数据集与目标任务样本集之间的数据集评分;基于第一单样本评分、第二单样本评分和数据集评分确定目标数据集的质量评估结果,提高数据集的评估质量。

    数据裁剪方法、装置、电子设备及存储介质

    公开(公告)号:CN119415837A

    公开(公告)日:2025-02-11

    申请号:CN202510017077.8

    申请日:2025-01-06

    Abstract: 本申请实施例提出的数据裁剪方法、装置、电子设备及存储介质,方法包括:从样本数据集的多个样本中选取目标样本,并获取目标样本的目标标签;在样本数据集中确定目标样本的多个邻域样本,并根据多个邻域样本的特征编码得到邻接特征矩阵;基于特征编码对邻接特征矩阵进行特征传播处理,得到更新邻接特征矩阵,并基于更新邻接特征矩阵计算每个邻域样本的邻接预测值;基于邻接预测值和目标标签的标签概率值,计算得到多个邻域样本和目标样本之间的相似度估计值;基于相似度估计值对样本数据集进行数据裁剪得到核心数据集,并基于相似度估计值对核心数据集的目标样本进行标签重标注,以提高在样本数据集中进行数据裁剪以保留重要样本数据的精准性。

Patent Agency Ranking