一种电影场景内镜头视频排序系统及方法

    公开(公告)号:CN115022711B

    公开(公告)日:2024-05-31

    申请号:CN202210460469.8

    申请日:2022-04-28

    Abstract: 本发明属于视频制作领域,公开了一种电影场景内镜头视频排序系统及方法,包括电影数据预处理模块、镜头特征提取模块、镜头排序模块;电影数据预处理模块包括镜头检测与分割,用于将输入的整个电影按照镜头进行切分;镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征;镜头排序模块,用于将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入;选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序。本发明可实现以每一个分镜的多个镜头作为输入,自动的从中选择一个最符合此视频风格的镜头并将其串联成一个完整的视频。

    一种基于深度学习的面部动作捕捉方法及系统

    公开(公告)号:CN114049678B

    公开(公告)日:2022-04-12

    申请号:CN202210023895.5

    申请日:2022-01-11

    Abstract: 本发明公开了一种基于深度学习的面部动作捕捉方法及系统,包括以下步骤:S1:使用深度相机采集人脸的视频数据和对应的深度数据,构建数据集;S2:构建面部动作识别网络,使用所述数据集进行面部动作识别网络训练;S3:将任意视频序列输入训练后的面部动作识别网络,预测混合形状系数;S4:将所述预测混合形状系数应用于任意的虚拟形象上,驱动虚拟形象的面部动作。系统包括视频采集模块,网络训练模块,面部动作预测模块,虚拟形象动画展示模块。本发明的算法运行速率高,只在训练时使用了深度信息进行训练,在预测阶段只需要输入单相机拍摄的视频就可以完成动作捕捉,无需额外的深度采集设备,可实时的进行面部动作捕捉。

    一种离散表征的视频行为识别系统及方法

    公开(公告)号:CN113936243A

    公开(公告)日:2022-01-14

    申请号:CN202111538073.2

    申请日:2021-12-16

    Inventor: 马诗洁 李太豪

    Abstract: 本发明公开了一种离散表征的视频行为识别系统及方法,利用矢量量化变分自动编码器(VQ‑VAE)学习视频数据的离散的潜空间/视觉词典(codebook),并用学习到的潜空间中的向量对输入视频进行离散化表征。然后将离散表征的视频特征输入到自回归模(Transformer)中,进行建模和分类。在视频行为识别领域,三维卷积滤波器在捕获局部时空区域内方面是有效的,但是不能对长距离的时空依赖关系进行建模。Transformer模型中基于自注意力机制,可以捕获整个视频的时空依赖关系。本方案利用矢量量化变分自动编码器,对视频中的主要、有效的特征进行提取和离散表征。结合自回归模型,对离散特征进行建模分类。

    一种融合情感编码的音频驱动人脸动画生成方法及系统

    公开(公告)号:CN113378806A

    公开(公告)日:2021-09-10

    申请号:CN202110934743.6

    申请日:2021-08-16

    Abstract: 本发明属于人工智能领域,涉及一种融合情感编码的音频驱动人脸动画生成方法及系统,该方法为:首先对采集的音频信号进行预处理,提取MFCC特征后输入语音识别模块,进一步提取音频特征,同时将MFCC特征输入语音情感识别模块,得到情感类别并进行one‑hot编码,然后将音频特征和情感的one‑hot编码向量进行连接,输入表情识别模块得到基于3DMM模型的表情系数,最后将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。本发明方法计算量小,训练稳定,流程简单,成本低廉,能够极大的降低电影制作周期和成本,且充分考虑了语音传达的情感状态,对在网络中输入了情感编码,使得生成的人脸动画更加生动形象,能够给用户带来更优质的体验。

    一种文字自动生成场景视频的方法及系统

    公开(公告)号:CN113934890B

    公开(公告)日:2022-04-15

    申请号:CN202111538104.4

    申请日:2021-12-16

    Inventor: 马诗洁 王俊彦

    Abstract: 本发明涉及视频制作领域,尤其涉及一种自动文字生成场景视频的方法及系统,该系统包括:构图逻辑生成模块,用于根据输入的文本描述,生成构图的构图模板图像;图像内容生成模块,输入为构图逻辑生成模块生成的构图模板图像,输出为渲染后的实景图;图像动态化模块,将图像内容生成模块输出的实景图,变换为连续的多帧图像,生成动态视频。本发明基于自然语言预训练模型和计算机视觉技术,通过给定的语言输入自动生成短视频,而不需要第三方人工干预,大大提高了短视频制作的效率,同时生成的短视频具有真实性和多样性,保证了生成视频的质量和视频素材的新颖。

    一种自动文字生成场景视频的方法及系统

    公开(公告)号:CN113934890A

    公开(公告)日:2022-01-14

    申请号:CN202111538104.4

    申请日:2021-12-16

    Inventor: 马诗洁 王俊彦

    Abstract: 本发明涉及视频制作领域,尤其涉及一种自动文字生成场景视频的方法及系统,该系统包括:构图逻辑生成模块,用于根据输入的文本描述,生成构图的构图模板图像;图像内容生成模块,输入为构图逻辑生成模块生成的构图模板图像,输出为渲染后的实景图;图像动态化模块,将图像内容生成模块输出的实景图,变换为连续的多帧图像,生成动态视频。本发明基于自然语言预训练模型和计算机视觉技术,通过给定的语言输入自动生成短视频,而不需要第三方人工干预,大大提高了短视频制作的效率,同时生成的短视频具有真实性和多样性,保证了生成视频的质量和视频素材的新颖。

    一种融合情感编码的音频驱动人脸动画生成方法及系统

    公开(公告)号:CN113378806B

    公开(公告)日:2021-12-14

    申请号:CN202110934743.6

    申请日:2021-08-16

    Abstract: 本发明属于人工智能领域,涉及一种融合情感编码的音频驱动人脸动画生成方法及系统,该方法为:首先对采集的音频信号进行预处理,提取MFCC特征后输入语音识别模块,进一步提取音频特征,同时将MFCC特征输入语音情感识别模块,得到情感类别并进行one‑hot编码,然后将音频特征和情感的one‑hot编码向量进行连接,输入表情识别模块得到基于3DMM模型的表情系数,最后将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。本发明方法计算量小,训练稳定,流程简单,成本低廉,能够极大的降低电影制作周期和成本,且充分考虑了语音传达的情感状态,对在网络中输入了情感编码,使得生成的人脸动画更加生动形象,能够给用户带来更优质的体验。

    一种基于多特征融合的视频行为识别方法

    公开(公告)号:CN113343950B

    公开(公告)日:2021-11-16

    申请号:CN202110891347.X

    申请日:2021-08-04

    Abstract: 本发明属于图像识别技术领域,涉及一种基于多特征融合的视频行为识别方法,通过将采集的视频信息从多个视角进行处理,对视频信息进行图像帧采样,进行人物的骨骼点信息提取,获得视频中人物行为的关键点热度图信息,人物的前景语义分割信息,并与RGB信息进行融合,从而提高视频行为识别的准确率。本发明同端到端的处理RGB视频信息进行行为识别的方法比较,通过提取的骨骼点信息可以更多的关注人物的动作信息,通过语义分割网络,获取场景中的前景信息,屏蔽无关的背景干扰,通过这三者的融合进行特征的互补,提高行为识别的准确率。

    一种基于多特征融合的视频行为识别方法

    公开(公告)号:CN113343950A

    公开(公告)日:2021-09-03

    申请号:CN202110891347.X

    申请日:2021-08-04

    Abstract: 本发明属于图像识别技术领域,涉及一种基于多特征融合的视频行为识别方法,通过将采集的视频信息从多个视角进行处理,对视频信息进行图像帧采样,进行人物的骨骼点信息提取,获得视频中人物行为的关键点热度图信息,人物的前景语义分割信息,并与RGB信息进行融合,从而提高视频行为识别的准确率。本发明同端到端的处理RGB视频信息进行行为识别的方法比较,通过提取的骨骼点信息可以更多的关注人物的动作信息,通过语义分割网络,获取场景中的前景信息,屏蔽无关的背景干扰,通过这三者的融合进行特征的互补,提高行为识别的准确率。

    一种视频多目标人脸表情识别方法和系统

    公开(公告)号:CN112990119A

    公开(公告)日:2021-06-18

    申请号:CN202110446571.8

    申请日:2021-04-25

    Abstract: 本发明属于人工智能领域,具体涉及一种视频多目标人脸表情识别方法和系统,该方法包括如下步骤:S1、抽取视频流中图像帧并提取人脸区域;S2、对视频流中的目标进行人脸跟踪;S3、对跟踪目标进行表情识别;S4、结合历史表情识别结果进行分析。本发明提供的方法,通过融合目标跟踪技术实现视频中多目标表情识别、利用前后帧结果加权提升动态表情识别结果的正确性和鲁棒性,防止视频表情识别结果产生的单帧抖动,同时本发明的视频表情识别系统具有表情分析结果及原始视频存储功能,能够帮助做出合理分析和建议,例如在校教育场景,智能驾驶辅助场景等。

Patent Agency Ranking