-
公开(公告)号:CN119445439A
公开(公告)日:2025-02-14
申请号:CN202411473451.7
申请日:2024-10-22
Applicant: 杭州电子科技大学
IPC: G06V20/40 , G06F40/295 , G06F40/16 , G06N3/045 , G06N3/0442
Abstract: 本发明公开了一种基于深度神经网络的多模态视频定位方法,该方法首先将用户输入的句子S分解,对于句子中的每个单词依据词性分类,使用独热编码表示分类结果,并对句子S初始化获得词特征矩阵。其次根据词特征矩阵,得到语言查询特征矩阵,根据独热编码提取实体信息特征和动作信息特征。然后基于用户输入视频,生成视觉特征,结合实体信息特征,获取实体的视觉特征。最后基于实体的视觉特征,通过全连接层计算视频帧的动作相关得分,通过双分支网络预测目标动作片段的起始边界和结束边界,得到定位结果,并构建损失函数进行反向训练。本发明解决视频定位中预测精度低的技术问题,提高视频中动作边界预测的准确性。