-
公开(公告)号:CN114298158B
公开(公告)日:2024-07-12
申请号:CN202111480214.X
申请日:2021-12-06
Applicant: 湖南工业大学
IPC: G06F18/214 , G06F18/213 , G06N3/0455 , G06N3/08 , G06F40/284 , G06V10/46 , G06V10/764 , G06V10/774
Abstract: 一种基于图文线性组合的多模态预训练方法,属于图文多模态检索技术领域,包括以下步骤:S1:对文本和图像分别进行特征提取;S2:在交互层建立文本和图像两种模态间的联系;S2.1:将S1中得到的视觉模态和语言模态的特征向量联合输入到多模态预训练模型的交互层中;S2.2:利用Transformer中的注意力机制,让两种模态相互之间产生联系;S3:将图文匹配或屏蔽语言模型作为预训练目标,将模型训练至可用;S4:将具体的应用场景和下游任务作为训练目标,对所述预训练模型进行微调训练,将模型的性能在该场景下达到最优。本申请的训练方法解决了模型运算时间的瓶颈问题和改良预训练模型微调后性能问题,具有较为重要的科学意义和实际应用价值。
-
公开(公告)号:CN114298158A
公开(公告)日:2022-04-08
申请号:CN202111480214.X
申请日:2021-12-06
Applicant: 湖南工业大学
IPC: G06K9/62 , G06N3/04 , G06N3/08 , G06F40/284 , G06V10/46 , G06V10/764 , G06V10/774
Abstract: 一种基于图文线性组合的多模态预训练方法,属于图文多模态检索技术领域,包括以下步骤:S1:对文本和图像分别进行特征提取;S2:在交互层建立文本和图像两种模态间的联系;S2.1:将S1中得到的视觉模态和语言模态的特征向量联合输入到多模态预训练模型的交互层中;S2.2:利用Transformer中的注意力机制,让两种模态相互之间产生联系;S3:将图文匹配或屏蔽语言模型作为预训练目标,将模型训练至可用;S4:将具体的应用场景和下游任务作为训练目标,对所述预训练模型进行微调训练,将模型的性能在该场景下达到最优。本申请的训练方法解决了模型运算时间的瓶颈问题和改良预训练模型微调后性能问题,具有较为重要的科学意义和实际应用价值。
-