-
公开(公告)号:CN113626641A
公开(公告)日:2021-11-09
申请号:CN202110916764.5
申请日:2021-08-11
Applicant: 南开大学
IPC: G06F16/74 , G06F16/75 , G06F16/78 , G06F16/33 , G06F16/35 , G06K9/00 , G06K9/32 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 一种基于多模态数据和美学原理的神经网络生成视频摘要的方法,包括:S100:将原始视频输入到多模态数据提取模块后得到文本模态的字幕数据,音频模态的背景音乐数据和图像模态的视频帧数据,再通过用户输入场景文本数据;S200:将多模态数据再分别输入到多模态特征编码模块中编码,输出各模态数据的特征向量表示序列;S300:将特征向量表示序列输入到重要镜头选择模块,分别提取出原始视频中的亮点镜头、代表性镜头、用户期望镜头和叙事镜头。S400:把亮点镜头、代表性镜头、用户期望镜头和叙事镜头输入到美学镜头组装模块中筛选出遵循美学原理的高质量镜头并拼接成视频摘要。相较于现有方法,提高了生成的视频摘要的可看性和叙述性。
-
公开(公告)号:CN113626641B
公开(公告)日:2023-09-01
申请号:CN202110916764.5
申请日:2021-08-11
Applicant: 南开大学
IPC: G06F16/74 , G06F16/75 , G06F16/78 , G06F16/33 , G06F16/35 , G06V20/40 , G06V20/62 , G06V10/762 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0442 , G06N3/08
Abstract: 一种基于多模态数据和美学原理的神经网络生成视频摘要的方法,包括:S100:将原始视频输入到多模态数据提取模块后得到文本模态的字幕数据,音频模态的背景音乐数据和图像模态的视频帧数据,再通过用户输入场景文本数据;S200:将多模态数据再分别输入到多模态特征编码模块中编码,输出各模态数据的特征向量表示序列;S300:将特征向量表示序列输入到重要镜头选择模块,分别提取出原始视频中的亮点镜头、代表性镜头、用户期望镜头和叙事镜头。S400:把亮点镜头、代表性镜头、用户期望镜头和叙事镜头输入到美学镜头组装模块中筛选出遵循美学原理的高质量镜头并拼接成视频摘要。相较于现有方法,提高了生成的视频摘要的可看性和叙述性。
-