一种帧级别的细粒度自然语言视频时刻定位方法

    公开(公告)号:CN115935001A

    公开(公告)日:2023-04-07

    申请号:CN202211669991.3

    申请日:2022-12-25

    Applicant: 湖南大学

    Inventor: 许莹 何炳 许崇

    Abstract: 本发明公开了一种帧级别的细粒度自然语言视频时刻定位方法,包括以下步骤:S1、输入完整的视频和查询语句,提取视频特征V和查询语句特征Q;S2、对视频中每一帧的特征和查询的每个词的特征计算相似度矩阵,通过相似度矩阵计算查询引导的视频特征和视频引导的查询特征S3、对视频引导的查询特征通过自注意力机制得到查询注意力向量H;S4、将视频特征V,查询引导的视频特征和查询注意力向量H拼接并输入全连接层得到视频查询融合特征Fvq;S5、将视频查询融合特征Fvq输入长短期记忆网络和多层感知机网络,预测查询语句对应的视频开始时刻和结束时刻。本发明提供一种帧级别的细粒度自然语言视频时刻定位方法,在提高定位精度的同时降低计算量。

Patent Agency Ranking