-
公开(公告)号:CN113936236A
公开(公告)日:2022-01-14
申请号:CN202111116334.1
申请日:2021-09-23
Applicant: 南京大学
IPC: G06V20/40 , G06V40/10 , G06V40/16 , G06V10/25 , G06V10/26 , G06V10/46 , G06V10/764 , G06K9/62 , G06F40/211 , G06F40/295 , G06F40/30
Abstract: 一种基于多模态特征的视频实体关系及交互识别方法,对影片中实体之间的交互进行预测识别:对影片根据场景划分为中片段,对中片段分别向上聚合为长片段,向下分割为短片段,对于每个中片段,将提取的实体特征、实体对特征、视频片段特征、音频特征和文字特征进行拼接作为该片段的融合特征,取平均作为长片段的特征预测长片段中的实体关系,并将该平均特征连接到每一个中片段特征,用于预测对应的中片段中的实体之间的互动,实体关系和实体互动同时进行预测,并联合训练对应的识别网络。本发明将长视频分为三种长度的视频,对长片段预测实体关系,对中片段预测实体交互和场景状态,对短片段预测实体交互,构建出实体关系图和互动图。