基于大型多模态模型的视觉表征压缩方法及装置

    公开(公告)号:CN119887954A

    公开(公告)日:2025-04-25

    申请号:CN202411980108.1

    申请日:2024-12-31

    Inventor: 冯洋 张绍磊

    Abstract: 本发明提供了一种基于大型多模态模型的视觉表征压缩方法,包括:将输入的多个第一视觉令牌压缩为至少一个第二视觉令牌;在输入大型多模态模型之前,将所述对第二视觉令牌与文本令牌进行融合,生成对应的融合信息;将所述融合信息输入所述大型多模态模型进行处理。本发明还提供一种基于大型多模态模型的视觉表征压缩装置、存储介质及电子设备。借此,本发明能够显著提高计算效率、降低内存占用和增强模型灵活性。

    利用交互式翻译指令的大规模语言模型指令微调方法及系统

    公开(公告)号:CN117151123A

    公开(公告)日:2023-12-01

    申请号:CN202310729758.8

    申请日:2023-06-19

    Inventor: 冯洋 张绍磊

    Abstract: 本发明提出一种利用交互式翻译指令的大规模语言模型指令微调方法和系统,包括:获取初始语言的预训练模型,构建交互式翻译数据;以该交互式翻译数据为训练数据,训练该预训练模型执行用户指令,以利用该交互式翻译数据对该预训练模型进行指令微调训练;指令微调训练过程采用交叉熵损失衡量该预训练模型在该训练数据上的损失函数,通过优化该预训练模型直到该损失函数收敛,保存当前预训练模型作为指令遵循大规模语言模型;将任意语言的用户指令输入该指令遵循大规模语言模型,得到该指令的对应执行结果。通过少量训练数据的构建,就能实现语言对齐,并提高大规模语言模型在非初始语言的生成能力和指令遵循能力。

Patent Agency Ranking