-
公开(公告)号:CN117953515A
公开(公告)日:2024-04-30
申请号:CN202410194721.4
申请日:2024-02-21
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/19 , G06V30/148 , G06V30/18 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本说明书公开了一种模型训练的方法、装置、存储介质和电子设备,图像分割模型包括图像编码器、文本编码器、解码器。先获取样本图像、样本指代文本及标签。再通过文本编码器确定不同尺度的文本特征,并通过图像编码器确定每个尺度的文本特征对应的图像特征。之后,将每个尺度的文本特征与对应尺度的图像特征进行融合。接着,通过解码器及各尺度的融合特征,得到预测分割结果,根据预测分割结果及标签,对图像分割模型进行训练。也就是说,通过获取图像及文本的不同尺度的特征,捕获了更多特征,并且,通过将同尺度的图像特征与文本特征融合,使得不同模态的特征进行信息交互,提高了图像分割模型输出的预测分割结果的准确性。