-
公开(公告)号:CN116682037A
公开(公告)日:2023-09-01
申请号:CN202310519904.4
申请日:2023-05-09
Applicant: 陕西科技大学
IPC: G06V20/40 , G06V10/40 , G06F40/216 , G06F40/30 , G06V10/74 , G06V10/764 , G06N3/0442 , G06N3/045 , G06N3/084
Abstract: 本发明公开了基于模型的美妆类短视频关键帧提取的方法,步骤1、对音频文本进行特征提取任务;步骤2、进行多模态特征提取;步骤3、捕捉视频帧区域序列上下文之间的信息;步骤4、自注意力机制通过对自身信息训练来更新参数;步骤5、对区域图像特征进行加权处理;步骤6、构建公共空间使用对比损失函数对两个不同源信息进行度量学习,跨越不同模态信息间的语义鸿沟,实现跨模态语义相似性度量;步骤7、组成短视频的关键帧摘要;步骤8、使用对比损失函数进行模型训练。本发明方法针对特定美妆类解说短视频主声的特点,考虑视频的多模态信息进行关键帧摘要的生成,提升了视频关键帧摘要的性能。