-
公开(公告)号:CN117874015A
公开(公告)日:2024-04-12
申请号:CN202410054612.2
申请日:2024-01-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/215 , G06F16/583 , G06F16/58 , G06F40/126 , G06F40/194 , G06F18/214
Abstract: 本发明提供一种数据清洗方法、装置、电子设备及存储介质。该方法包括:获取目标数据集;根据目标数据集中所包括的类别确定类别约束条件;并将目标数据集划分为多个子数据集;针对任意一个子数据集执行以下步骤:将该子数据集作为待清洗子数据集,其他子数据集作为训练集;基于训练集训练前置视觉语言模型;将待清洗子数据集中的图像和类别约束条件输入到前置视觉语言模型中,得到待清洗子数据集中图像的伪标签;将待清洗子数据集中的图像、标签和伪标签作为三元组输入到后置视觉语言模型,输出待清洗子数据集中图像的判定结果;根据判定结果,对待清洗子数据集进行清洗操作。本发明能够有效识别标注错误,多类别标注不齐,无明显类别主体等问题。