-
公开(公告)号:CN118840421A
公开(公告)日:2024-10-25
申请号:CN202311049823.9
申请日:2023-08-18
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司 , 西安交通大学
IPC: G06T7/73 , G06T7/10 , G06T7/50 , G06T3/4007 , G06T3/4038
Abstract: 本实施例公开了一种图像处理方法、装置、电子设备和计算机存储介质,该图像处理方法包括:获取目标场景的图像数据,所述图像数据包括图像采集设备在每两个相邻的采集时刻采集的两帧图像;对所述图像数据进行稀疏处理,得到第一向量序列,所述第一向量序列中的每个向量表示所述图像数据的特征;基于自注意力机制对所述向量序列进行处理,得到所述图像数据对应的特征图;根据所述特征图,确定所述图像数据中每两帧相邻图像之间的相对位姿。
-
公开(公告)号:CN118799461A
公开(公告)日:2024-10-18
申请号:CN202410331987.9
申请日:2024-03-22
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06T13/40 , G06T3/4038 , G06V10/80 , G06N3/0499 , G06N3/08 , G06V10/82
Abstract: 本申请实施例提供了一种数字人动画的生成方法、装置及数字人动画生成模型,其中,提出了语音驱动数字人全局面部表情及口型的技术框架,将语音中的情感、内容、风格进行解耦学习,显式地对多种情感的强度进行建模,增强情感表征的丰富度、灵活度。另外,在模型训练阶段,将从图像解码出的视觉情感特征与语音情感特征相结合,增强模型的情感学习能力;在推理阶段采用用户自定义的情感强度嵌入替代图像情感分支的输出,实现了用户对情感强度的控制,无需依赖语音对齐的图像输入,便于实际工程应用。另外,还提出了粗略+精细两阶段的模型优化策略。综上,本申请实施例通过对语音情感表示的增强,能够实现丰富灵活、逼真自然的数字人讲话动画生成。
-
公开(公告)号:CN114973345A
公开(公告)日:2022-08-30
申请号:CN202110208227.5
申请日:2021-02-24
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
Inventor: 李杰
Abstract: 本申请公开了一种图像处理方法、装置、电子设备及可读存储介质,具体方案包括:获取第一图像域的多张第一虚假人脸图像和第二图像域的多张第二虚假人脸图像;将第一虚假人脸图像输入到循环生成对抗网络的第一生成器中,获得第一输出图像,并将第一输出图像和第一虚假人脸图像输入到第一判别器中,获得第一对抗损失值;获得第二对抗损失值;将第二输出图像输入到第一生成器中,获得第一循环损失值;将第一输出图像输入到第二生成器中,获得第二循环损失值;迭代训练循环生成对抗网络;利用收敛后的循环生成对抗网络,生成具有第三特征的虚假人脸图像。根据本申请中的方案,可以实现基于域的自适应的虚假人脸图像增强,从而使得人脸数据全面、丰富。
-
公开(公告)号:CN118965314A
公开(公告)日:2024-11-15
申请号:CN202411039253.X
申请日:2024-07-31
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
Abstract: 本申请提供一种数字人保护方法、装置、网络设备、存储介质及程序产品,应用于数字人技术领域。该方法包括:在数字人信息的生成和/或编辑过程中,在数字人信息中嵌入水印信息;水印信息根据数字人信息的版权保护信息生成;将根据水印信息计算的校验信息写入数字人信息的元数据中。采用该方法,在数字人信息生成和/或编辑过程中,在所生成或编辑的数字人信息中嵌入水印信息,获得携带水印信息的数字人信息,此外还将根据水印信息计算的校验信息写入数字人信息的元数据中,使得数字人信息的验证方能够利用水印信息和校验信息对数字人信息进行验证,实现对数字人信息的独立篡改判断,保证对数字人版权的有效保护。
-
公开(公告)号:CN118898535A
公开(公告)日:2024-11-05
申请号:CN202410903361.0
申请日:2024-07-05
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06T1/00 , G06T19/00 , G06F21/16 , G06N3/0455
Abstract: 本申请公开了一种基于深度学习的水印信息处理方法、装置、设备、存储介质及计算机程序产品。其中,该方法包括:获取原始三维模型和嵌入水印信息;将所述原始三维模型和所述嵌入水印信息输入至预先训练的水印处理系统中,得到嵌入水印的三维模型;所述嵌入水印的三维模型表征所述原始三维模型的几何部分和纹理部分均嵌入所述嵌入水印信息的三维模型;通过所述水印处理系统从经过攻击的嵌入水印的三维模型中提取得到目标水印信息;所述目标水印信息基于所述经过攻击的嵌入水印的三维模型中的几何部分和/或纹理部分得到,且与所述嵌入水印信息一致。
-
公开(公告)号:CN118840476A
公开(公告)日:2024-10-25
申请号:CN202311275553.3
申请日:2023-09-28
Applicant: 中国移动通信有限公司研究院 , 北京邮电大学 , 中国移动通信集团有限公司
IPC: G06T17/00 , G06T15/04 , G06T3/4038 , G06N3/0464 , G06N3/0895
Abstract: 本发明公开了一种三维人脸重建方法、装置、设备及介质,涉及人工智能技术领域。其中,三维人脸重建方法包括:获取目标二维图像;将目标二维图像输入至训练完成的人脸重建模型中进行处理,获取人脸重建模型输出的基础三维人脸模型、第一纹理图和第一形状图;将第一纹理图和第一形状图进行融合处理,得到第二纹理图;将第一纹理图和第二纹理图经过上采样后进行拼接处理后输入至训练完成的细化纹理模型中进行处理,获取细化纹理模型输出的纹理三维人脸模型;其中,细化纹理模型包括卷积采样编码层和反卷积采样解码层,卷积采样编码层和反卷积采样解码层跳层连接。本发明能够提高三维人脸重建的精度,丰富三维人脸重建的细节。
-
公开(公告)号:CN118691854A
公开(公告)日:2024-09-24
申请号:CN202310274440.5
申请日:2023-03-21
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
Inventor: 李杰
Abstract: 本申请公开了一种数字人形象处理方法、装置、设备及可读存储介质,该方法包括:获取数字人模型;根据所述数字人模型,获取所述数字人模型对应的人脸特征指纹和人体特征指纹;将所述人脸特征指纹和所述人体特征指纹与数据库中的数字人指纹信息进行比对,确定所述数字人模型对应的数字人形象是否存在。上述方案,通过基于人脸特征指纹和人体特征指纹进行数字人相似度的比对,以此确定数字人形象是否存在,进而能够实现数字人形象是否侵权的判断,确定数字人形象版权归属,避免多模态数字人版权争端,降低维权难度。
-
公开(公告)号:CN110909578A
公开(公告)日:2020-03-24
申请号:CN201811087182.5
申请日:2018-09-18
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
Inventor: 李杰
Abstract: 本发明公开了一种低分辨率图像识别方法、装置和存储介质,用以针对低分辨率的图像进行识别,降低低分辨率图像识别的复杂度,并提高识别结果的准确性。低分辨率图像识别方法,包括:获取待识别的图像;将所述待识别的图像输入到图像识别模型中得到识别结果,其中,所述图像识别模型为利用主干网络、低分辨率图像分支网络以及高分辨率图像分支网络对样本图像进行训练得到的,所述样本图像中包括高分辨率的图像和利用所述高分辨率图像得到的低分辨率图像。
-
公开(公告)号:CN119135863A
公开(公告)日:2024-12-13
申请号:CN202411171829.8
申请日:2024-08-23
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: H04N13/156 , H04N13/15 , H04N13/128 , H04N13/122 , G10L19/00
Abstract: 本申请公开了一种信号处理方法及装置、处理设备、存储介质、程序产品,所述方法包括:获取音频信号和3D视频信号,所述3D视频信号包括彩色图像和深度图像;对所述音频信号进行压缩编码处理,得到音频流;将所述深度图像转换为灰度图像,并将所述灰度图像与所述彩色图像拼接,得到复合图像;对所述复合图像进行压缩编码处理,得到视频流;发送所述音频流和所述视频流。
-
公开(公告)号:CN119028375A
公开(公告)日:2024-11-26
申请号:CN202411042157.0
申请日:2024-07-31
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
Abstract: 本公开提供了一种音视频伪造检测方法、装置、设备、介质及产品,其中,该方法包括:获取待测的音视频序列;所述音视频序列包括音频序列和视频序列;基于所述视频序列中各视频片段的身份特征,确定视觉身份一致性特征;其中,所述视觉身份一致性特征用于指示所述视频序列中同一目标的视觉身份特征是否存在显著变化;对所述音频序列和所述视频序列分别进行特征提取,得到听觉时空特征和视觉时空特征,以及对所述听觉时空特征和所述视觉时空特征进行对齐融合,得到视听一致性特征;基于所述视觉身份一致性特征和所述视听一致性特征,确定所述音视频序列的伪造检测结果。
-
-
-
-
-
-
-
-
-