-
公开(公告)号:CN119071468A
公开(公告)日:2024-12-03
申请号:CN202310840758.5
申请日:2023-07-10
Applicant: 华为云计算技术有限公司
Abstract: 一种数字人的音唇同步评测方法,包括:获取用户输入的数字人视频;将数字人视频中的音频转换为第一文本,并对第一文本进行切分,得到多个子文本;确定数字人视频包含的各个子视频中数字人的嘴型和相应的子视频中音频之间的匹配程度,得到多个音唇同步准确率,其中,一个音唇同步准确率与一个子视频关联;基于子文本的时间戳和音唇同步准确率对应的子视频的时间戳,在时间上将各个子文本与各个音唇同步准确率对齐,得到各个子文本对应的音唇同步准确率;输出各个子文本对应的音唇同步准确率。这样,用户可以通过各个子文本对应的音唇同步准确率,快速的定位到数字人视频中哪些部分的音唇同步需要改善,并对数字人视频制作流程进行优化。
-
公开(公告)号:CN118537457A
公开(公告)日:2024-08-23
申请号:CN202310627046.5
申请日:2023-05-30
Applicant: 华为云计算技术有限公司
Abstract: 一种3D人脸动画生成方法及装置,包括:获取3D人脸基准模型和待处理的音频数据以及该音频数据对应的脸部状态语义信息,其中,脸部状态语义信息用于指示所述音频数据所包括的每一段语音内容对应的脸部状态;基于所述3D人脸基准模型、音频数据和脸部状态语义信息,生成3D人脸动画,该3D人脸动画中的3D人脸基准模型受音频数据驱动做出与所述音频数据的每一段语音内容相匹配的脸部状态,使得该3D人脸动画能够更加真实准确、自然流畅表达出一段音频数据中的情绪变化。
-
公开(公告)号:CN118537456A
公开(公告)日:2024-08-23
申请号:CN202310505617.8
申请日:2023-05-06
Applicant: 华为云计算技术有限公司
Abstract: 本申请提供了一种数字人视频生成方法及相关装置,所述方法应用于数字人生成领域,所述方法包括:获取第一音频,使用第一音频驱动数字人,生成第一数字人视频,其中,第一数字人视频中包括数字人的第一面部动作系列和第一肢体动作序列中的至少一种,第一音频与第一面部动作系列和第一肢体动作序列中的至少一种适配,其中,面部动作包括面部各个器官的微表情和面部肌肉的微表情。将音频应用于数字人领域,使得数字人的肢体动作和面部动作可以随着音频的变化而变化,实施本申请实施例,丰富了数字人的形态、表情和动作。
-
公开(公告)号:CN118860233A
公开(公告)日:2024-10-29
申请号:CN202310389438.2
申请日:2023-04-12
Applicant: 华为云计算技术有限公司
IPC: G06F3/04842 , G06F3/0481 , G06T13/20 , G06T13/40
Abstract: 本申请公开了一种数字人多媒体资源的生成方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:响应于针对数字人的多媒体资源生成请求,根据对象的音频描述信息来确定与之匹配的音频,并基于音频调整数字人的形象,使得调整后的数字人的形象与该音频的内容匹配,进而驱动数字人动起来,得到数字人的多媒体资源。在这一过程中,无需手动调整数字人的形象,以使数字人的形象与音频的内容匹配,从而简化了人机交互操作,提高了数字人多媒体资源的生成效率,提升了用户体验感。
-
公开(公告)号:CN116681807A
公开(公告)日:2023-09-01
申请号:CN202310489294.8
申请日:2023-04-28
Applicant: 深圳华为云计算技术有限公司
IPC: G06T13/40 , G06T13/20 , G06V40/20 , G06V10/764 , G06V10/82
Abstract: 本申请公开了应用于计算机技术领域的一种虚拟对象的动作图像数据生成方法、装置及相关设备。在该方法中,获取目标音乐、形象参考图像以及乐器类型,将目标音乐、形象参考图像以及乐器类型作为手势驱动模型的输入数据,得到手势驱动模型输出的虚拟对象的乐器演奏动作图像数据。手势驱动模型能够支持多种乐器类型。目标乐器类型是手势驱动模型支持的多种乐器类型中的一种。利用手势驱动模型能够生成多种乐器类型中,指定的目标乐器类型对应的虚拟对象的乐器演奏动作图像数据。如此无需训练多个驱动模型,降低成本。
-
公开(公告)号:CN119967225A
公开(公告)日:2025-05-09
申请号:CN202410101094.5
申请日:2024-01-24
Applicant: 华为云计算技术有限公司
IPC: H04N21/44 , H04N21/472 , H04N21/81 , G06F18/25 , G06N3/0475
Abstract: 本申请实施例提供了一种数字人的生成方法以及装置,用于提升局部形象与数字人模板的融合效果。本申请实施例方法包括:计算设备接收用户输入条件,用户输入条件用于指示待生成的数字人的局部形象的特征,用户输入条件的类型包括文本、图片和语音中的一者或多者。基于用户输入条件和限制条件,使用局部形象生成模型生成至少一个局部形象,限制条件用于指示局部形象融合模型融合局部形象和数字人模板库中的数字人模板时,对局部形象的要求。使用局部形象融合模型将局部形象和数字人模板库中的数字人模板进行融合,得到局部形象对应的数字人。
-
公开(公告)号:CN119068291A
公开(公告)日:2024-12-03
申请号:CN202310934271.3
申请日:2023-07-27
Applicant: 华为云计算技术有限公司
IPC: G06V10/776 , G06V40/16 , G06T13/40 , G06V10/764
Abstract: 一种评估方法、装置及设备,涉及计算机视觉技术领域。方法包括获取多个待测表情基,多个待测表情基分别和目标对象面部的不同点位绑定;确定至少一个表情基组,每个表情基组包括多个待测表情基中的至少一个,每个表情基组中的所有待测表情基用于形成一个面部表情;调用评估图像或者评估模型,对每个表情基组进行评估,得到评估数据,评估图像和评估模型均用于表征面部表情评估标准的图像或者模型,所述评估数据用于表征所述表情基组所形成的面部表情与所述面部表情评估标准的差距。这样,能够对数字人的表情基绑定质量实现客观评估,从而利于提高虚拟化人物动画效果、提高制作质量。
-
公开(公告)号:CN119810277A
公开(公告)日:2025-04-11
申请号:CN202311813742.1
申请日:2023-12-26
Applicant: 华为云计算技术有限公司
Abstract: 本申请公开了一种动作重定向方法及装置、电子设备集群,应用于重定向技术领域,解决了目前重定向系统动作重定向效率的问题。该方法包括:获取由目标形象的第一体型数据、源形象的第二动作数据和源形象的第二体型数据根据重定向算法生成的第一动作数据。显示包括目标形象执行第一动作数据对应的动作的第一预览画面。接收用户发送的用于修正目标形象执行的第一动作数据对应的动作的修正指令。根据修正指令,确定重定向算法的修正参数。使用包括修正参数的重定向算法,根据目标形象的第一体型数据、源形象的第二动作数据和第二体型数据,确定修正后的第一动作数据。显示包括目标形象执行修正后的第一动作数据对应的动作的第二预览画面。
-
公开(公告)号:CN119068158A
公开(公告)日:2024-12-03
申请号:CN202311218488.0
申请日:2023-09-20
Applicant: 华为云计算技术有限公司
Abstract: 一种数字人绑定评估方法,涉及计算机视觉技术领域。方法包括获取待测数字人模型和标准数字人模型,待测数字人模型描述有通过目标绑定方法对骨骼和/或表情基绑定的不同点位,标准数字人模型用于表征绑定效果评估标准;通过目标驱动方式,分别驱动待测数字人模型和标准数字人模型,得到待测驱后数据和标准驱后数据,待测驱后数据用于表征待测数字人被驱动所形成的动画,标准驱后数据用于表征标准数字人模型被驱动所形成的动画;对待测驱后数据与标准驱后数据进行相似度评估,得到评估数据,以通过评估数据表征目标绑定方法对待测数字人模型的绑定效果。这样,可以实现客观、统一的数字人绑定效果评估。
-
公开(公告)号:CN118870137A
公开(公告)日:2024-10-29
申请号:CN202310429308.7
申请日:2023-04-20
Applicant: 华为云计算技术有限公司
IPC: H04N21/81 , H04N21/234 , H04N21/235 , H04N21/472
Abstract: 本申请公开了一种数字人视频的生成方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:获取数字人对应的单张对象图像,响应于针对对象图像中对象属性的调整指令,生成用于展示对象属性调整后数字人状态的数字人图像资源,数字人图像资源包括至少一张数字人图像;用音频驱动数字人图像资源中的数字人做出与音频内容匹配的口型,以生成以对象属性调整后的状态表达音频内容的数字人视频。本申请提供了一种支持灵活编辑对象属性的数字人视频生成流程,基于输入的单张对象图像,无需更多操作,即可根据用户需求来调整数字人呈现的对象属性,生成自然、真实性强的数字人视频,提升用户体验,降低生成过程中提高真实性所需的操作成本。
-
-
-
-
-
-
-
-
-