一种多级融合图像和文本的多模态方面级情感分析方法

    公开(公告)号:CN117708642A

    公开(公告)日:2024-03-15

    申请号:CN202311456751.X

    申请日:2023-11-03

    Inventor: 李优 丁涵 林煜明

    Abstract: 本发明涉及图像和文本融合技术领域,具体地说,涉及一种多级融合图像和文本的多模态方面级情感分析方法,包括以下步骤:步骤1、多粒度视觉对齐;包括粗粒度对齐、细粒度对齐以及字符粒度对齐;步骤2、多尺度视觉融合;先通过利用多粒度视觉对齐的视觉数据来捕捉多尺度视觉特征并获得相应的层次视觉表示,然后进行视觉方面和意见的监督,最后基于prompt的动态视觉融合;步骤3、文本引导的多模态训练;通过最小化文本输出空间与文本+图像上下文输出空间的KL损失,得到多模态方面级情感分析结果。本发明能较佳地进行多模态方面级情感分析。

Patent Agency Ranking