-
公开(公告)号:CN116129321B
公开(公告)日:2023-10-27
申请号:CN202310129840.7
申请日:2023-02-17
Applicant: 哈尔滨工业大学
IPC: G06V20/40 , G06V20/70 , G06F16/783 , G06N3/045
Abstract: 一种基于长序动态主客体视觉关系建模的视频描述生成方法,属于视频描述技术领域。本发明针对现有视频理解任务中,只能对视频中实体级信息进行探测,无法体现实体之间的关系和交互的问题。包括:获得采样片段;分别获得采样片段的主语分类结果、谓语分类结果、宾语分类结果和每个分类结果的置信分数;按置信分数从高到低,将前五个主语分类结果、谓语分类结果、宾语分类结果和对应的置信分数采用关系连接模块进行组合,获得5×5×5=125个关系三元组,每个关系三元组的置信分数为三个组成成分置信分数相乘的结果;基于预定模板结合关系三元组的置信分数生成待描述视频的描述语句。本发明方法用于视频描述。
-
公开(公告)号:CN116129321A
公开(公告)日:2023-05-16
申请号:CN202310129840.7
申请日:2023-02-17
Applicant: 哈尔滨工业大学
IPC: G06V20/40 , G06V20/70 , G06F16/783 , G06N3/045
Abstract: 一种基于长序动态主客体视觉关系建模的视频描述生成方法,属于视频描述技术领域。本发明针对现有视频理解任务中,只能对视频中实体级信息进行探测,无法体现实体之间的关系和交互的问题。包括:获得采样片段;分别获得采样片段的主语分类结果、谓语分类结果、宾语分类结果和每个分类结果的置信分数;按置信分数从高到低,将前五个主语分类结果、谓语分类结果、宾语分类结果和对应的置信分数采用关系连接模块进行组合,获得5×5×5=125个关系三元组,每个关系三元组的置信分数为三个组成成分置信分数相乘的结果;基于预定模板结合关系三元组的置信分数生成待描述视频的描述语句。本发明方法用于视频描述。
-