一种基于多模态特征的视频实体关系及交互识别方法

    公开(公告)号:CN113936236A

    公开(公告)日:2022-01-14

    申请号:CN202111116334.1

    申请日:2021-09-23

    Applicant: 南京大学

    Abstract: 一种基于多模态特征的视频实体关系及交互识别方法,对影片中实体之间的交互进行预测识别:对影片根据场景划分为中片段,对中片段分别向上聚合为长片段,向下分割为短片段,对于每个中片段,将提取的实体特征、实体对特征、视频片段特征、音频特征和文字特征进行拼接作为该片段的融合特征,取平均作为长片段的特征预测长片段中的实体关系,并将该平均特征连接到每一个中片段特征,用于预测对应的中片段中的实体之间的互动,实体关系和实体互动同时进行预测,并联合训练对应的识别网络。本发明将长视频分为三种长度的视频,对长片段预测实体关系,对中片段预测实体交互和场景状态,对短片段预测实体交互,构建出实体关系图和互动图。

Patent Agency Ranking