基于多层级对比学习的视频文本多模态事件抽取方法

    公开(公告)号:CN118445448A

    公开(公告)日:2024-08-06

    申请号:CN202311662509.8

    申请日:2023-12-05

    Applicant: 东南大学

    Abstract: 本发明涉及一种基于多层级对比学习的视频文本多模态事件抽取方法,所述方法包括如下步骤:步骤1:采用预训练的I3D模型对给定的视频进行视频外观特征编码,步骤2:采用预训练的PWC模型对给定的视频进行光流特征的抽取,步骤3:采用预训练的T5模型对给定的文本提取文本序列特征,步骤4:对所述步骤3中的文本序列特征直接获得事件触发词特征和事件类型特征,步骤5:对步骤1得到的视频外观特征,步骤2得到的光流特征以及步骤3得到的文本序列特征,将他们送入双边查询文本模块来增强模态之间的交互。

Patent Agency Ranking