-
公开(公告)号:CN118820541A
公开(公告)日:2024-10-22
申请号:CN202310847705.6
申请日:2023-07-11
Applicant: 华为云计算技术有限公司 , 清华大学
IPC: G06F16/903 , G06F16/901 , G06F18/214 , G06F18/22
Abstract: 本申请提供了一种信息识别方法、系统及相关设备,该方法包括以下步骤:获取待查询的数字信息,对待查询的数字信息进行编码,获得数字信息的第一编码,利用第一编码与搜索树进行匹配,确定与数字信息相关的目标对象,该搜索树包括多个搜索路径,每个搜索路径对应一个对象的第二编码,通过预先对注册信息库中多个对象的数字信息进行编码每个对象的第二编码,基于第二编码进行搜索树的创建,使得信息识别可通过匹配搜索树的方式实现,提高信息识别的精度和效率。
-
公开(公告)号:CN118629397A
公开(公告)日:2024-09-10
申请号:CN202310693826.X
申请日:2023-06-12
Applicant: 华为云计算技术有限公司
Abstract: 本申请公开了一种处理语音识别模型的方法、装置及存储介质,属于计算机领域。所述方法包括:获取多个发音模型和多个文本信息,所述多个发音模型与多个人员对应,每个发音模型分别用于模仿所述每个发音模型对应的人员的声音特征;基于所述多个发音模型和所述多个文本信息获取多个训练样本,每个训练样本包括语音信息和至少一个文本信息,所述多个文本信息包括所述至少一个文本信息,所述每个语音信息是所述多个发音模型中的一个发音模型对所述至少一个文本信息进行转换得到的;基于所述多个训练样本对通用语音识别模型进行训练,得到目标语音识别模型。本申请能够提高训练语音识别模型的效率。
-
公开(公告)号:CN114528812A
公开(公告)日:2022-05-24
申请号:CN202011219334.X
申请日:2020-11-04
Applicant: 华为云计算技术有限公司
IPC: G06F40/151 , G06K9/62 , G10L15/22
Abstract: 本申请提供了一种语音识别方法及系统。该方法接收上传的自定义热词和相似度配置后,将所述自定义热词转换成第一音素序列,根据基于聚类算法模型获得的扩展规则对所述第一音素序列进行扩展,获得扩展后的第一音素序列,再将接收到的音频数据转换为第二音素序列,通过计算所述扩展后的第一音素序列与所述第二音素序列之间的相似度,根据所述相似度配置和所述相似度,确定所述音频数据的语音识别结果。所述语音识别方法通过基于聚类算法模型扩展了所述自定义热词,更有效的利用了上传的自定义热词,从而提升了语音识别结果的精确度。
-
公开(公告)号:CN114463794A
公开(公告)日:2022-05-10
申请号:CN202011133566.3
申请日:2020-10-21
Applicant: 华为云计算技术有限公司
IPC: G06V40/16 , G06V10/74 , G06V10/774
Abstract: 本申请实施例公开了一种人脸识别方法、人脸识别模型训练方法以及相关装置,用于提升人脸识别的效率。本申请实施例方法包括:根据两张人脸图像获取其对应的特征向量,接着对两个特征向量之间的距离参数进行比对,如果该距离参数大于预设值,则确定这两张人脸图像不存在匹配关系,如果该距离参数小于预设值,则确定这两张人脸图像存在匹配关系。
-
公开(公告)号:CN116844529A
公开(公告)日:2023-10-03
申请号:CN202310600981.2
申请日:2023-05-25
Applicant: 深圳华为云计算技术有限公司
Abstract: 本申请提供了语音识别方法、装置及计算机存储介质。实施例中方法包括获取目标低资源语言的待处理语音特征;将待处理语音特征输入到训练好的第一模型中进行音素识别,确定训练好的第一模型输出的音素概率分布;将音素概率分布输入到训练好的第二模型中进行语义识别,确定第一识别结果;第二模型通过文字误差训练得到,文字误差指示了第二模型针对音素概率分布的语义识别的结果和文字标签的偏差,音素概率分布为训练好的第二模型对第二语音特征进行音素识别的结果,文字标签指示了第二语音特征对应的语义。通过第一模型进行音素识别确定音素概率分布,第二模型基于音素概率分布进行语义识别,从而基于音素信息提高语义识别的准确性。
-
公开(公告)号:CN117351964A
公开(公告)日:2024-01-05
申请号:CN202210737178.9
申请日:2022-06-27
Applicant: 华为云计算技术有限公司
Abstract: 本申请提供一种角色分类方法、装置、电子设备及存储介质,涉及人工智能技术领域,用于快速、准确地对语音通话中的角色进行分类。该角色分类方法包括:在获取待识别音频中的第一对象的声纹特征和第二对象的声纹特征,以及已分类对象的参考声纹特征后,可以确定第一对象的声纹特征与已分类对象的参考声纹特征的第一相似度,以及第二对象的声纹特征与已分类对象的参考声纹特征的第二相似度。其中,参考声纹特征为从声纹特征库获取的;声纹特征库为根据多个样本音频和聚类算法构建的;后续,可以将第一对象和第二对象中的,目标相似度对应的声纹特征所属对象确定为已分类对象,并将已分类对象的角色作为目标相似度对应的声纹特征所属对象的角色。
-
-
-
-
-