一种基于多任务训练的图像描述和问答方法

    公开(公告)号:CN116561368A

    公开(公告)日:2023-08-08

    申请号:CN202310662783.9

    申请日:2023-06-06

    Applicant: 厦门大学

    Abstract: 一种基于多任务训练的图像描述和问答方法,涉及计算机视觉和计算机语言。使用BLIP预训练模型,载入大规模图文数据集预训练;预处理图像描述数据和图像问答数据,使用标识符区分输入数据,图像描述、图像问答两个任务在同一框架下实现;构建多任务模型,使用多模态图像文本特征提取,图像经过视觉特征提取模块成为视觉向量,作为注意力输入到文本特征提取模块之中;文本使用LM损失函数,使模型学习文本的输出内容;根据模型训练的任务计算对应的损失函数及权重:动态学习分配多个任务的损失权重,调整最优学习方式。在同一个模型下实现图像描述和图像问答,可公用数据集,性能显著提升。产生的问答对捕捉更多图片细节,质量高。

Patent Agency Ranking