-
公开(公告)号:CN117351964A
公开(公告)日:2024-01-05
申请号:CN202210737178.9
申请日:2022-06-27
Applicant: 华为云计算技术有限公司
Abstract: 本申请提供一种角色分类方法、装置、电子设备及存储介质,涉及人工智能技术领域,用于快速、准确地对语音通话中的角色进行分类。该角色分类方法包括:在获取待识别音频中的第一对象的声纹特征和第二对象的声纹特征,以及已分类对象的参考声纹特征后,可以确定第一对象的声纹特征与已分类对象的参考声纹特征的第一相似度,以及第二对象的声纹特征与已分类对象的参考声纹特征的第二相似度。其中,参考声纹特征为从声纹特征库获取的;声纹特征库为根据多个样本音频和聚类算法构建的;后续,可以将第一对象和第二对象中的,目标相似度对应的声纹特征所属对象确定为已分类对象,并将已分类对象的角色作为目标相似度对应的声纹特征所属对象的角色。
-
公开(公告)号:CN118820541A
公开(公告)日:2024-10-22
申请号:CN202310847705.6
申请日:2023-07-11
Applicant: 华为云计算技术有限公司 , 清华大学
IPC: G06F16/903 , G06F16/901 , G06F18/214 , G06F18/22
Abstract: 本申请提供了一种信息识别方法、系统及相关设备,该方法包括以下步骤:获取待查询的数字信息,对待查询的数字信息进行编码,获得数字信息的第一编码,利用第一编码与搜索树进行匹配,确定与数字信息相关的目标对象,该搜索树包括多个搜索路径,每个搜索路径对应一个对象的第二编码,通过预先对注册信息库中多个对象的数字信息进行编码每个对象的第二编码,基于第二编码进行搜索树的创建,使得信息识别可通过匹配搜索树的方式实现,提高信息识别的精度和效率。
-
公开(公告)号:CN118629397A
公开(公告)日:2024-09-10
申请号:CN202310693826.X
申请日:2023-06-12
Applicant: 华为云计算技术有限公司
Abstract: 本申请公开了一种处理语音识别模型的方法、装置及存储介质,属于计算机领域。所述方法包括:获取多个发音模型和多个文本信息,所述多个发音模型与多个人员对应,每个发音模型分别用于模仿所述每个发音模型对应的人员的声音特征;基于所述多个发音模型和所述多个文本信息获取多个训练样本,每个训练样本包括语音信息和至少一个文本信息,所述多个文本信息包括所述至少一个文本信息,所述每个语音信息是所述多个发音模型中的一个发音模型对所述至少一个文本信息进行转换得到的;基于所述多个训练样本对通用语音识别模型进行训练,得到目标语音识别模型。本申请能够提高训练语音识别模型的效率。
-
-