-
公开(公告)号:CN119514645A
公开(公告)日:2025-02-25
申请号:CN202411350617.6
申请日:2024-09-26
Applicant: 中国科学院自动化研究所
IPC: G06N3/096 , G06N3/042 , G06N3/0464 , G06N3/0455 , G06N3/088 , G06N3/0895 , G06N3/084 , G06F18/213 , G06F18/25 , G06F18/22 , G06F40/284 , G06F40/30
Abstract: 本发明提供一种多模态大语言模型的大小模型协同训练方法及装置,该方法包括:将图像、视频、音频等多模态样本输入多模态共享编码器生成多模态令牌;将文本样本输入文本编码器得到文本令牌;将不同模态的多模态令牌与文本令牌相结合,通过预训练的小型多模态大语言模型前向蒸馏预训练的大型多模态大语言模型并训练投影层得到训练后的投影层,该投影层连接于小型和大型多模态大语言模型之间;利用训练后的投影层和预训练的大型多模态大语言模型反向蒸馏小型多模态大语言模型,由此训练过程同时得到训练后的大型和小型多模态大语言模型。不仅提升了大型多模态大语言模型的跨模态对齐能力,还通过知识蒸馏增强了小型多模态大语言模型的性能。