-
公开(公告)号:CN115269884A
公开(公告)日:2022-11-01
申请号:CN202110905684.X
申请日:2021-08-06
Applicant: 华为云计算技术有限公司
IPC: G06F16/432 , G06F16/483 , G10L25/57
Abstract: 本申请提供了一种生成视频语料的方法,具体为获取待处理视频,该待处理视频对应语音内容,并且待处理视频的部分视频图像包括语音内容对应的字幕。然后,根据该语音内容,从待处理视频中获取目标视频片段,并将该目标视频片段中的视频图像包括的字幕作为该目标视频片段的标注文本,得到视频语料。如此,可以实现自动生成视频语料,从而不仅可以避免人工标注过程中因为主观认知误差而导致对于切分精度的影响,而且生成视频语料的效率通常也较高。并且,可以避免生成的视频语料中出现语音内容播放不完整的问题,同时,视频语料的标注文本的准确性更高。此外,本申请还提供了一种视频语料生成装置及相关设备。
-
公开(公告)号:CN115631267A
公开(公告)日:2023-01-20
申请号:CN202110795095.0
申请日:2021-07-14
Applicant: 华为云计算技术有限公司
IPC: G06T13/40 , G06N3/0464 , G06N3/084
Abstract: 本申请提供了一种生成动画的方法和装置,该生成动画的方法,通过将获取的待处理语音和待处理视频处理得到与待处理语音对应的人脸的关键点的数据,该人脸的关键点包括第一特征的关键点,其中,与该多个音频帧中至少两个音频帧对应的该第一特征的关键点中的至少一个关键点的位置不同,该第一特征包括眼神、头部姿势、唇形中的至少一个,再根据人脸关键点的数据和待处理视频得到多个图像帧,随后根据多个图像帧得到动画。本申请提供一种生成动画的方法与装置,通过丰富人脸动画中的面部表情,更加生动地展现音频的情感信息,提高人脸动画与语音的匹配度,使得聋哑人更加准确地理解音频表达的含义,提高聋哑人的用户体验。
-
公开(公告)号:CN115937726A
公开(公告)日:2023-04-07
申请号:CN202110605312.5
申请日:2021-05-31
Applicant: 华为云计算技术有限公司
Abstract: 本申请提供了一种说话人检测方法、装置、设备及计算机可读存储介质,其中,该方法包括如下步骤:获取场景在目标时间段的视频数据和音频数据,其中,该场景包括至少一个人员;根据上述视频数据获得上述场景中人员的嘴部特征;根据上述音频数据获得上述场景中人员的音频特征;根据上述嘴部特征和上述音频特征,确定在目标时间段内上述场景中的说话人。利用该方法能够提高场景中的说话人检测的准确率。
-
-