-
公开(公告)号:CN114764456A
公开(公告)日:2022-07-19
申请号:CN202011599960.6
申请日:2020-12-30
Applicant: 华为云计算技术有限公司
IPC: G06F16/783 , G06F40/194 , G06K9/62 , G06N3/04 , G06F16/332
Abstract: 本申请提供了一种视频问题生成方法及装置,涉及人工智能AI领域,该方法在执行时,可先获取视频信息以及与视频信息相关的N条历史对话记录信息;其中,N大于或等于1;利用第一神经网络模型从视频信息中提取视觉特征信息,以及利用第二神经网络模型从每条历史对话记录信息中提取对话特征信息;针对每条历史对话记录信息,基于多注意力机制的融合模型对视觉特征信息以及对话特征信息进行特征融合,确定对话特征信息对视觉特征信息的第一表征,以及视觉特征信息对对话特征信息的第二表征;针对每条历史对话记录信息,通过问题生成模型对第一表征以及第二表征进行特征提取,生成与视频信息对应的视频备选问题。通过方式获取的视频问题更加可靠。
-
公开(公告)号:CN119380726A
公开(公告)日:2025-01-28
申请号:CN202311278704.0
申请日:2023-09-28
Applicant: 华为云计算技术有限公司
Abstract: 本申请提供了一种生成语音克隆模型的方法及相关装置,方法应用于语音克隆领域,包括:获取用户通过终端设备输入的对多个参考音频的打分结果;基于多个参考音频和用户对多个参考音频的打分结果进行训练,获得声学反馈单元,声学反馈单元用于衡量用户对不同音频的听觉感受;获取用户通过终端设备输入的第一语音数据集;基于第一语音数据集和声学反馈单元,对语音克隆模型进行训练,获得语音克隆模型。在语音克隆模型训练过程中,考虑到了用户对不同音频的喜欢程度,将用户对多个参考音频的打分结果加入到语音克隆模型的训练过程中,训练获得的语音克隆模型更符合用户的使用需求,使用训练得到的语音克隆模型生成的语音更能满足用户的听觉感受。
-
公开(公告)号:CN119071468A
公开(公告)日:2024-12-03
申请号:CN202310840758.5
申请日:2023-07-10
Applicant: 华为云计算技术有限公司
Abstract: 一种数字人的音唇同步评测方法,包括:获取用户输入的数字人视频;将数字人视频中的音频转换为第一文本,并对第一文本进行切分,得到多个子文本;确定数字人视频包含的各个子视频中数字人的嘴型和相应的子视频中音频之间的匹配程度,得到多个音唇同步准确率,其中,一个音唇同步准确率与一个子视频关联;基于子文本的时间戳和音唇同步准确率对应的子视频的时间戳,在时间上将各个子文本与各个音唇同步准确率对齐,得到各个子文本对应的音唇同步准确率;输出各个子文本对应的音唇同步准确率。这样,用户可以通过各个子文本对应的音唇同步准确率,快速的定位到数字人视频中哪些部分的音唇同步需要改善,并对数字人视频制作流程进行优化。
-
公开(公告)号:CN118537457A
公开(公告)日:2024-08-23
申请号:CN202310627046.5
申请日:2023-05-30
Applicant: 华为云计算技术有限公司
Abstract: 一种3D人脸动画生成方法及装置,包括:获取3D人脸基准模型和待处理的音频数据以及该音频数据对应的脸部状态语义信息,其中,脸部状态语义信息用于指示所述音频数据所包括的每一段语音内容对应的脸部状态;基于所述3D人脸基准模型、音频数据和脸部状态语义信息,生成3D人脸动画,该3D人脸动画中的3D人脸基准模型受音频数据驱动做出与所述音频数据的每一段语音内容相匹配的脸部状态,使得该3D人脸动画能够更加真实准确、自然流畅表达出一段音频数据中的情绪变化。
-
公开(公告)号:CN118537456A
公开(公告)日:2024-08-23
申请号:CN202310505617.8
申请日:2023-05-06
Applicant: 华为云计算技术有限公司
Abstract: 本申请提供了一种数字人视频生成方法及相关装置,所述方法应用于数字人生成领域,所述方法包括:获取第一音频,使用第一音频驱动数字人,生成第一数字人视频,其中,第一数字人视频中包括数字人的第一面部动作系列和第一肢体动作序列中的至少一种,第一音频与第一面部动作系列和第一肢体动作序列中的至少一种适配,其中,面部动作包括面部各个器官的微表情和面部肌肉的微表情。将音频应用于数字人领域,使得数字人的肢体动作和面部动作可以随着音频的变化而变化,实施本申请实施例,丰富了数字人的形态、表情和动作。
-
公开(公告)号:CN118509668A
公开(公告)日:2024-08-16
申请号:CN202310623337.7
申请日:2023-05-29
Applicant: 华为云计算技术有限公司
IPC: H04N21/845 , H04N21/234 , H04N21/44
Abstract: 本申请提供了一种视频切分方法及装置,能够提高视频切分的效率。其中,该方法可以应用于视频切分装置。视频切分装置获取待切分视频,该视频包括音频数据和图像数据。视频切分装置利用故事情节识别模型对上述音频数据进行切分,得到音频切分结果。视频切分装置利用场景识别模型对上述图像数据进行切分,得到场景切分结果。之后,视频切分装置基于音频切分结果和场景切分结果对上述视频进行切分,得到至少一个目标视频片段。
-
公开(公告)号:CN118277228A
公开(公告)日:2024-07-02
申请号:CN202211667175.9
申请日:2022-12-23
Applicant: 华为云计算技术有限公司
IPC: G06F11/36
Abstract: 一种语音合成系统测试方法、装置及设备,本申请中,用户在需要测试语音合成系统时可以触发产生第一测试请求,第一测试请求用于请求对语音合成系统进行测试。测试装置接收用户触发的第一测试请求,分别对多个功能单元进行测试,获取多个功能单元的测试结果,生成语音合成系统的测试报告。测试装置向用户反馈语音合成系统的测试报告。通过上述方法,对于需要测试语音合成系统的用户,只需要触发第一测试请求,测试装置自行完成对对语音合成系统的测试,语音合成系统的测试的自动化程度更高,无需消耗较多人力。在对语音合成系统进行测试时,是以功能粒度进行测试,便于定位语音合成系统中出现问题的功能单元。
-
公开(公告)号:CN117687547A
公开(公告)日:2024-03-12
申请号:CN202211028540.1
申请日:2022-08-25
Applicant: 华为云计算技术有限公司
IPC: G06F3/0482 , G06F3/0484 , G06F3/04842 , G06N3/08 , G06N5/04 , G06F16/332
Abstract: 本申请提供了一种生成问答对的方法、装置、计算机集群和存储介质,属于文本问答技术领域。该方法包括:获取目标文本,将该目标文本输入问答对生成模型,获得该目标文本包括的至少一个问答对,每个问答对包括答案和问题,展示该至少一个问答对以及该至少一个问答对对应的操作类选项,该操作类选项用于用户对对应的问答对进行修正,获取用户使用该操作类选项对该至少一个问答对进行操作后的操作结果,基于该操作结果对该问答对生成模型进行更新。采用本申请的方案,能够提升获得准确问答对的效率。
-
公开(公告)号:CN117373432A
公开(公告)日:2024-01-09
申请号:CN202211071940.0
申请日:2022-09-02
Applicant: 华为云计算技术有限公司
IPC: G10L13/10 , G10L13/02 , G06F16/683
Abstract: 本申请提供了一种语音克隆方法,包括:确定目标场景,并根据该目标场景,确定属于目标场景的目标语料文本,然后根据该目标语料文本,确定目标对象的音频,该音频的语音内容与目标语料文本的内容相匹配,从而利用该目标语料文本以及目标对象的音频,训练目标场景对应的语音克隆模型,该语音克隆模型用于输出模拟目标对象在目标场景下发音的音频。由于语音克隆模型是基于目标对象针对目标场景下的语料文本的发音音频进行训练得到,这使得语音克隆模型根据文本所输出的新的语音,在音色、韵律和发音风格等方面的特征,能够更加符合目标对象在目标场景下的真实发音情况,以此可以有效提高语音克隆效果。此外,本申请还提供了对应的装置及相关设备。
-
公开(公告)号:CN116775892A
公开(公告)日:2023-09-19
申请号:CN202210726908.5
申请日:2022-06-24
Applicant: 华为云计算技术有限公司
Abstract: 本申请提供了一种事理图谱建立方法及相关装置,所述方法包括:获取第一数据,第一数据中包括视频、图像、文本、语音中的任意一种或者多种;将第一数据切分为m个集合,m个集合中的每个集合的数据代表一类事件,一类事件包括至少一个事件,m为任意正整数;确定m个集合中的数据代表的m类事件之间的逻辑关系;以m类事件中的每类事件分别为节点,m类事件之间的逻辑关系为节点的边,建立事理图谱。采用本申请的方法,可以以事件为节点,以事件之间的逻辑关系为节点的边,建立事理图谱,满足市场的需求。
-
-
-
-
-
-
-
-
-