-
公开(公告)号:CN115713665A
公开(公告)日:2023-02-24
申请号:CN202211237958.3
申请日:2022-10-10
Applicant: 中国科学院信息工程研究所
IPC: G06V10/774 , G06V20/40 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/0895
Abstract: 本发明公开了一种基于宏观到微观语义关联对比的视频自监督表征学习方法。本发明首先创建一视频自监督时空表示模型,其包括时域模块MaMiCo与空域模块MaMiCo;所述时域模块MaMiCo包括第一编码器、平均全局映射头,所述空域模块MaMiCo包括第二编码器、密集映射头,所述第一编码器与第二编码器共享参数;然后在视频数据中以金字塔的形式采样全局片段、局部片段以及静止片段用于训练视频自监督时空表示模型,其中时域MaMiCo关注在学习全局片段与局部片段的时域语义关联,空域MaMiCo旨在学习局部片段与静止片段的空域语义关联;然后将待处理视频输入训练后的第一编码器或第二编码器,得到该待处理视频的特征图。