一种基于实时共享Transformer的多模态特征级融合方法

    公开(公告)号:CN119513816A

    公开(公告)日:2025-02-25

    申请号:CN202411660801.0

    申请日:2024-11-20

    Applicant: 复旦大学

    Abstract: 本发明涉及一种基于实时共享Transformer的多模态特征级融合方法,涉及多模态数据处理技术领域。该方法包括:将图像信息、文本信息、语音信息分别传入到映射模块,得到三种编码切片的嵌入向量;将三种编码切片的嵌入向量分别传入到普通transformer编码模块,得到三种编码令牌;将三种编码令牌同时传入到实时共享transformer编码模块,得到三种共享编码;三种共享编码传入自适应性融合模块,得到一个包含所有模态信息的联合特征表示。该方法通过将多模态数据转换为嵌入向量,进行特征提取和编码之后,进行跨模态信息共享,最后在自适应性融合模块中整合所有模态的信息,实现将多模态信息更加全面有机地融合。

    一种面向模态信息不平衡场景的多模态学习方法

    公开(公告)号:CN119494366A

    公开(公告)日:2025-02-21

    申请号:CN202411573461.8

    申请日:2024-11-06

    Applicant: 复旦大学

    Abstract: 本发明公开了一种面向模态信息不平衡场景的多模态学习方法,涉及多模态信息学习技术领域,该方法包括预训练阶段和下游任务阶段;预训练阶段采集图像、文本、音频信息构建数据集,经映射模块获取统一编码向量,进行联合表征向量化组成三元表征向量,随机掩码后由Transformer编解码器处理以训练出模型M;下游任务阶段,多模态信息经映射模块和联合表征后传入模型M训练,生成多模态融合信息;本发明基于Transformer编解码器的模型M可有效解决传统模型面对模态不平衡的性能下降问题,使模态信息更均衡,提升多模态信息感知能力,结合下游任务数据训练提升下游任务学习效果,具有良好的落地性、高效性和通用性。

Patent Agency Ranking