一种基于多模态数据的重平衡长尾图像数据分类方法

    公开(公告)号:CN115205592A

    公开(公告)日:2022-10-18

    申请号:CN202210829253.4

    申请日:2022-07-15

    Applicant: 东北大学

    Abstract: 本发明属于图像分类领域,设计了一种基于多模态数据的重平衡长尾图像数据分类方法。该方法实现图像‑文本多模态学习在长尾图像分类问题上的应用,旨在使用相对平衡且易于获得、扩展性丰富的文本数据来监督模型对图像特征的学习,通过两个阶段的训练,提高模型在所有种类上的分类效果。第一个阶段使用CLIP大规模预训练模型中的图像和文本编码器,通过对比学习的方法建立两个模态数据的关联性,增强类内图像与文本互信息的同时扩大类间差异性。第二个阶段冻结图像与文本编码器,并在图像编码器后增加了一个多层感知机,使用类平衡采样策略和重平衡损失函数训练少量周期,进一步改善模型对于尾部类的分类能力。

Patent Agency Ranking