-
公开(公告)号:CN113470170A
公开(公告)日:2021-10-01
申请号:CN202110750794.3
申请日:2021-07-02
Applicant: 厦门大学
Abstract: 一种利用语音信息的实时视频人脸区域时空一致合成方法,涉及深度学习和三维人脸重建。利用三维人脸重建算法从视觉特征提取人脸身份信息、人脸形状信息、人脸姿态信息和人脸纹理信息,并利用深度学习技术从音频特征提取人脸表情信息,融合前者的视觉信息和后者的听觉信息,增强神经网络合成人脸表情的丰富性,快速准确地合成与当前说话内容相一致的人脸说话视频。引入参考人脸身份参数,可约束输出前后视频帧身份形象一致。引入时序上的上下文信息和平滑约束,抑制纹理抖动,使人脸生成算法能适用于视频。采用更为精简的神经网络结构,可实时生成人脸说话视频或去掉人脸遮挡物,可在安防监控、视频会议、虚拟形象、动画驱动等领域应用。
-
公开(公告)号:CN113470170B
公开(公告)日:2024-10-22
申请号:CN202110750794.3
申请日:2021-07-02
Applicant: 厦门大学
Abstract: 一种利用语音信息的实时视频人脸区域时空一致合成方法,涉及深度学习和三维人脸重建。利用三维人脸重建算法从视觉特征提取人脸身份信息、人脸形状信息、人脸姿态信息和人脸纹理信息,并利用深度学习技术从音频特征提取人脸表情信息,融合前者的视觉信息和后者的听觉信息,增强神经网络合成人脸表情的丰富性,快速准确地合成与当前说话内容相一致的人脸说话视频。引入参考人脸身份参数,可约束输出前后视频帧身份形象一致。引入时序上的上下文信息和平滑约束,抑制纹理抖动,使人脸生成算法能适用于视频。采用更为精简的神经网络结构,可实时生成人脸说话视频或去掉人脸遮挡物,可在安防监控、视频会议、虚拟形象、动画驱动等领域应用。
-
公开(公告)号:CN113838173A
公开(公告)日:2021-12-24
申请号:CN202111111750.2
申请日:2021-09-23
Applicant: 厦门大学
IPC: G06T13/20 , G06T13/40 , G06T15/00 , G06T19/00 , G06T19/20 , G10L21/0272 , G10L25/24 , G10L25/27 , G10L25/48 , G10L25/63
Abstract: 一种受语音和背景声联合驱动的虚拟人头部运动合成方法,涉及计算机视觉。对待合成的人脸参考图像进行人脸三维重建,提取其人脸身份参数、人脸纹理参数;输入音乐音频流进行音声分离,分离出背景声音频流和语音音频流;提取音频特征,分别输出背景声特征序列和语音特征序列;分别向第一~四网络输入音频特征,输出头部姿态参数序列、面部表情参数序列;计算三维人脸模型形状和纹理并进行投影渲染,输出二维人脸渲染图像序列;对第五网络输入二维人脸渲染图像序列,输出纹理优化后的虚拟人头部形象视频帧序列。可驱动虚拟人头部姿态、面部表情、眼睛、口型等协同运动,合成神态表情丰富、动作感真实、表现力强的虚拟人头部形象视频。
-
公开(公告)号:CN113837072A
公开(公告)日:2021-12-24
申请号:CN202111117785.7
申请日:2021-09-24
Applicant: 厦门大学
IPC: G06K9/00 , G06F16/75 , G06F16/783 , G06N3/04 , G06N3/08
Abstract: 一种融合多维信息的说话人情绪感知方法,涉及深度学习和人的情绪感知技术领域。输入说话人的视频,从视频中提取说话人的图像及语音;将说话人的图像及语音输入多维特征提取网络,对语音中的语言文本和语言情绪进行提取,并从图像信息中提取出说话人的人脸表情特征;使用多维特征编码算法对多维特征提取网络的多种特征结果进行编码,将多维信息映射到一个共享的编码空间;使用多维特征融合算法对编码空间中的特征从低维到高维进行融合,取得多维信息在高维特征空间中与说话人情绪高度相关的特征向量;将融合的多维信息输入情绪感知网络进行预测,输出为说话人的情绪感知分布。可根据多维信息有效排除歧义性,精准预测说话人的情绪感知分布。
-
公开(公告)号:CN113838173B
公开(公告)日:2023-08-22
申请号:CN202111111750.2
申请日:2021-09-23
Applicant: 厦门大学
IPC: G06T13/20 , G06T13/40 , G06T15/00 , G06T19/00 , G06T19/20 , G10L21/0272 , G10L25/24 , G10L25/27 , G10L25/48 , G10L25/63
Abstract: 一种受语音和背景声联合驱动的虚拟人头部运动合成方法,涉及计算机视觉。对待合成的人脸参考图像进行人脸三维重建,提取其人脸身份参数、人脸纹理参数;输入音乐音频流进行音声分离,分离出背景声音频流和语音音频流;提取音频特征,分别输出背景声特征序列和语音特征序列;分别向第一~四网络输入音频特征,输出头部姿态参数序列、面部表情参数序列;计算三维人脸模型形状和纹理并进行投影渲染,输出二维人脸渲染图像序列;对第五网络输入二维人脸渲染图像序列,输出纹理优化后的虚拟人头部形象视频帧序列。可驱动虚拟人头部姿态、面部表情、眼睛、口型等协同运动,合成神态表情丰富、动作感真实、表现力强的虚拟人头部形象视频。
-
公开(公告)号:CN113851145A
公开(公告)日:2021-12-28
申请号:CN202111111485.8
申请日:2021-09-23
Applicant: 厦门大学
IPC: G10L21/10 , G10L21/18 , G10L15/26 , G10L15/02 , G10L15/16 , G10L25/24 , G10L25/30 , G06K9/00 , G06N3/04
Abstract: 一种联合语音和语义关键动作的虚拟人动作序列合成方法,涉及动作合成。人工选取并录制关键动作目标视频构建关键动作池;对输入语音流提取语音特征序列;对语音识别模块输入语音特征序列,输出对应的文本序列;对口型推理模块输入语音特征序列,输出口型特征点序列;对人脸纹理匹配模块输入口型特征点变化轨迹序列,输出人脸纹理图像序列。对关键动作选取模块输入文本序列及语音音频流,输出关键姿态序列;对背景帧选取模块输入语音音频流、文本序列、关键动作序列,输出背景帧序列;对前景背景混合模块输入人脸纹理图像序列和背景帧序列,输出虚拟人动作和语音语义一致的虚拟人说话视频。利用语义约束动作,提高虚拟人动作与语音语义的一致性。
-
公开(公告)号:CN110059754A
公开(公告)日:2019-07-26
申请号:CN201910321778.5
申请日:2019-04-22
Applicant: 厦门大学
IPC: G06K9/62
Abstract: 本发明涉及一种批量数据隐写方法、终端设备及存储介质,在该方法中包括:利用前馈控制预测各载体信号的嵌入率,根据嵌入率计算待隐写消息中隐写入各载体信号的子消息的长度后,将各子消息隐写入对应的载体信号生成隐写信号,另外选择载体信号与隐写信号共同组成待发送信号,利用反馈控制筛选每一个待发送信号,利用反馈控制调整预测载体信号嵌入率时的参数。本发明通过将前馈控制与反馈控制相结合,用于隐写者受到隐写分析者长期监控之下的情景,在多个载体之间分配隐蔽信息的分片长度,以增强隐写行为的隐蔽性。
-
公开(公告)号:CN113851145B
公开(公告)日:2024-06-07
申请号:CN202111111485.8
申请日:2021-09-23
Applicant: 厦门大学
IPC: G10L21/10 , G10L21/18 , G10L15/26 , G10L15/02 , G10L15/16 , G10L25/24 , G10L25/30 , G06V40/20 , G06V10/82 , G06N3/0464 , G06N3/0455
Abstract: 一种联合语音和语义关键动作的虚拟人动作序列合成方法,涉及动作合成。人工选取并录制关键动作目标视频构建关键动作池;对输入语音流提取语音特征序列;对语音识别模块输入语音特征序列,输出对应的文本序列;对口型推理模块输入语音特征序列,输出口型特征点序列;对人脸纹理匹配模块输入口型特征点变化轨迹序列,输出人脸纹理图像序列。对关键动作选取模块输入文本序列及语音音频流,输出关键姿态序列;对背景帧选取模块输入语音音频流、文本序列、关键动作序列,输出背景帧序列;对前景背景混合模块输入人脸纹理图像序列和背景帧序列,输出虚拟人动作和语音语义一致的虚拟人说话视频。利用语义约束动作,提高虚拟人动作与语音语义的一致性。
-
公开(公告)号:CN109449436B
公开(公告)日:2021-03-12
申请号:CN201811066082.4
申请日:2018-09-13
Applicant: 厦门大学
IPC: H01M4/505 , H01M4/525 , H01M10/0525
Abstract: 一种阳离子空位正极材料及其制备方法,涉及锂离子电池。阳离子空位正极材料的化学式为Lia[LibMncCodNie]Of。将锰盐、钴盐和镍盐中的至少一种溶于去离子水中,配制成混合盐溶液A;将碳酸钠和碳酸氢铵溶于去离子水中,配制成溶液B;将混合盐溶液A加入溶液B中,得混合液;将混合液静置,过滤,洗涤,干燥后得碳酸盐前驱体;将干燥后的碳酸盐前驱体煅烧后,得氧化物前驱体;将氧化物前驱体与锂盐混合,烧结后即得阳离子空位正极材料。通过共沉淀方法获得的前驱体产物与适量低于化学计量比的锂源均匀混合烧结后,获得体相含有大量阳离子空位的层状正极材料。含有阳离子空位的正极材料能够降低锂源的使用量,降低生产成本。
-
公开(公告)号:CN110059754B
公开(公告)日:2019-12-24
申请号:CN201910321778.5
申请日:2019-04-22
Applicant: 厦门大学
IPC: G06K9/62
Abstract: 本发明涉及一种批量数据隐写方法、终端设备及存储介质,在该方法中包括:利用前馈控制预测各载体信号的嵌入率,根据嵌入率计算待隐写消息中隐写入各载体信号的子消息的长度后,将各子消息隐写入对应的载体信号生成隐写信号,另外选择载体信号与隐写信号共同组成待发送信号,利用反馈控制筛选每一个待发送信号,利用反馈控制调整预测载体信号嵌入率时的参数。本发明通过将前馈控制与反馈控制相结合,用于隐写者受到隐写分析者长期监控之下的情景,在多个载体之间分配隐蔽信息的分片长度,以增强隐写行为的隐蔽性。
-
-
-
-
-
-
-
-
-