一种基于上下文Transformer网络的细粒度视频-文本检索方法

    公开(公告)号:CN114282060A

    公开(公告)日:2022-04-05

    申请号:CN202111613304.1

    申请日:2021-12-27

    Abstract: 一种基于上下文Transformer网络的细粒度视频‑文本检索方法,包括S1.获得视频数据的全局层级特征、局部物体层级特征和局部动作层级特征;S2.将全局层级特征、局部物体层级特征和局部动作层级特征进行不同层级特征之间的上下文信息编码;S3.将文本的全局特征、名词特征、动词特征输入到基于注意力机制的图推理模型中,得到文本数据的细粒度层级特征;以及S4.将细粒度层级特征输入多层级跨模态匹配模块进行相似度计算。本发明方法在跨模态视频‑文本检索任务上取得更好的性能。

Patent Agency Ranking