-
公开(公告)号:CN115935001A
公开(公告)日:2023-04-07
申请号:CN202211669991.3
申请日:2022-12-25
Applicant: 湖南大学
IPC: G06F16/732 , G06F16/735 , G06F18/22 , G06F18/214 , G06F40/30 , G06N3/08 , G06V20/40 , G06N3/0442
Abstract: 本发明公开了一种帧级别的细粒度自然语言视频时刻定位方法,包括以下步骤:S1、输入完整的视频和查询语句,提取视频特征V和查询语句特征Q;S2、对视频中每一帧的特征和查询的每个词的特征计算相似度矩阵,通过相似度矩阵计算查询引导的视频特征和视频引导的查询特征S3、对视频引导的查询特征通过自注意力机制得到查询注意力向量H;S4、将视频特征V,查询引导的视频特征和查询注意力向量H拼接并输入全连接层得到视频查询融合特征Fvq;S5、将视频查询融合特征Fvq输入长短期记忆网络和多层感知机网络,预测查询语句对应的视频开始时刻和结束时刻。本发明提供一种帧级别的细粒度自然语言视频时刻定位方法,在提高定位精度的同时降低计算量。