-
公开(公告)号:CN115205594A
公开(公告)日:2022-10-18
申请号:CN202210839548.X
申请日:2022-07-18
Applicant: 东北大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/08
Abstract: 本发明属于图像分类领域,设计了一种基于混合样本的长尾图像数据分类方法,本发明对图像分类研究中遇到的长尾训练集问题提出了一种新的解决方案,旨在使用三个具有特异化知识的专家共同辅助算法做出最终决策,避免单个模型带来的模型分类器权重偏差过大等问题。本发明适用于数据呈长尾分布的图像分类的业务场景,通过设计多个具备特定领域知识的专家,在不损失头部类分类精度的情况下,提高模型对于所有频率分布种类的分类性能,为数据长尾分布时图像分类的实际工程应用提供方案,缓解数据采集困难等问题,改进算法模型对头部类数据的过拟合情况并提高对尾部类数据的学习能力。
-
公开(公告)号:CN115205592A
公开(公告)日:2022-10-18
申请号:CN202210829253.4
申请日:2022-07-15
Applicant: 东北大学
IPC: G06V10/764 , G06V10/74 , G06V10/75 , G06V10/774
Abstract: 本发明属于图像分类领域,设计了一种基于多模态数据的重平衡长尾图像数据分类方法。该方法实现图像‑文本多模态学习在长尾图像分类问题上的应用,旨在使用相对平衡且易于获得、扩展性丰富的文本数据来监督模型对图像特征的学习,通过两个阶段的训练,提高模型在所有种类上的分类效果。第一个阶段使用CLIP大规模预训练模型中的图像和文本编码器,通过对比学习的方法建立两个模态数据的关联性,增强类内图像与文本互信息的同时扩大类间差异性。第二个阶段冻结图像与文本编码器,并在图像编码器后增加了一个多层感知机,使用类平衡采样策略和重平衡损失函数训练少量周期,进一步改善模型对于尾部类的分类能力。
-