-
公开(公告)号:CN119493074A
公开(公告)日:2025-02-21
申请号:CN202311033120.7
申请日:2023-08-15
Applicant: 华为技术有限公司
Abstract: 本申请实施例提供一种朝向确定方法及相关设备,涉及语音领域;该方法中,获取第一设备的第一特征。上述第一特征是根据第一设备中的M个音频采集单元对应的M个单通道语音信号得到的。M为整数,M个音频采集单元针对同一声源进行音频采集。上述第一特征包括声源产生的声音信号中对朝向敏感的直达声和/或反射声的特征。基于第一特征确定声源与第一设备之间的第一朝向角。本申请实施例的方法根据第一设备的单通道语音信号计算得到第一特征,即可依据第一特征确定朝向角,不需要预训练深度学习模型,朝向确定方法的成本低,泛化性强,且占用算力资源少。
-
公开(公告)号:CN114974227A
公开(公告)日:2022-08-30
申请号:CN202110207931.9
申请日:2021-02-24
Applicant: 华为技术有限公司
Abstract: 本申请涉及一种语音识别及其模型训练方法,该训练方法包括:根据包括成人音素集合和儿童音素集合的第一音素集合生成第一发音词典;利用训练数据和第一发音词典对第一声学模型进行训练,得到第一状态的第一声学模型;根据第一状态的第一声学模型进行音素和词典更新得到第二音素集合和第二发音词典;根据训练数据和第二发音词典,对第一状态的第一声学模型进行训练,得到第二状态的第一声学模型;根据第二状态的第一声学模型,生成初始化第二声学模型;根据训练数据和第二发音词典对初始化第二声学模型进行训练得到第二声学模型。第二声学模型能够对成人和儿童的语音进行识别,且对成人和儿童的语音识别率高、能节省系统资源。
-
公开(公告)号:CN109036391B
公开(公告)日:2021-02-05
申请号:CN201810671596.6
申请日:2018-06-26
Applicant: 华为技术有限公司
Abstract: 一种语音识别方法,装置及系统,涉及计算机技术领域,尤其涉及语音识别技术领域,目的在于提高语音识别准确率。所述语音识别方法包括:构建声学WFST,所述声学WFST是从声学特征到发音属性的搜索网络;构建发音WFST,所述发音WFST是从发音属性到音素的搜索网络;构建词典WFST,所述词典WFST是从音素到字或词的搜索网络;构建语言WFST,所述语言WFST是字或词到词序列的搜索网络;对上述多个WFST进行整合生成语音识别WFST,并基于所述语音识别WFST进行语音识别,输出概率最大的识别结果。
-
公开(公告)号:CN111192568B
公开(公告)日:2022-12-13
申请号:CN201811360232.2
申请日:2018-11-15
Applicant: 华为技术有限公司
IPC: G10L13/047 , G10L13/08 , G10L13/10 , G10L25/30 , G10L25/63
Abstract: 本申请实施例公开了一种语音合成方法及语音合成装置,用于合成不同情感强度的语音,提升合成语音在情感表现方面的多样性。本申请方法包括:获取获取输入文本对应的目标情感类型和目标情感强度参数;根据目标情感类型和目标情感强度参数确定对应的目标情感声学模型;将输入文本的文本特征输入目标情感声学模型中得到输入文本的声学特征;根据输入文本的声学特征合成目标情感语音。
-
公开(公告)号:CN112216307A
公开(公告)日:2021-01-12
申请号:CN201910631571.8
申请日:2019-07-12
Applicant: 华为技术有限公司
Abstract: 本申请提供了一种语音情感识别方法、装置以及系统,可应用于人工智能领域语音识别场景。所述方法包括:获取语音数据,其中,语音数据包括t个语音帧I1,I2,…,It;将语音帧I1,I2,…,It分别输入声学特征识别模型,从而得到语音帧I1,I2,…,It各自的情感声学特征数据S1,S2,…,St;将语音帧I1,I2,…,It分别输入音素识别模型,从而得到语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt;根据语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt,确定语音帧I1,I2,…,It各自的音素数据N1,N2,…,Nt;将情感声学特征数据S1,S2,…,St和音素数据N1,N2,…,Nt进行融合,从而得到融合数据R1,R2,…,Rt;将融合数据R1,R2,…,Rt输入情感状态识别模型,从而确定语音数据的情感状态。
-
公开(公告)号:CN111192568A
公开(公告)日:2020-05-22
申请号:CN201811360232.2
申请日:2018-11-15
Applicant: 华为技术有限公司
IPC: G10L13/047 , G10L13/08 , G10L13/10 , G10L25/30 , G10L25/63
Abstract: 本申请实施例公开了一种语音合成方法及语音合成装置,用于合成不同情感强度的语音,提升合成语音在情感表现方面的多样性。本申请方法包括:获取获取输入文本对应的目标情感类型和目标情感强度参数;根据目标情感类型和目标情感强度参数确定对应的目标情感声学模型;将输入文本的文本特征输入目标情感声学模型中得到输入文本的声学特征;根据输入文本的声学特征合成目标情感语音。
-
公开(公告)号:CN114664288A
公开(公告)日:2022-06-24
申请号:CN202011524726.7
申请日:2020-12-22
Applicant: 华为技术有限公司
IPC: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/20 , G10L15/22 , G10L15/26 , G10L15/30 , G10L21/0208 , G10L21/0216 , G10L25/24
Abstract: 本申请提供一种语音识别方法、装置、设备及可存储介质,涉及人工智能技术领域,尤其涉及语音识别领域。该方法包括:采用对抗式多任务训练的方式训练声学模型,网络结构包括特征提取网络、语音识别网络和域分类网络,首先分别采集非回声场景下的语音数据作为源域的语音样本数据和回声场景下的语音数据作为目标域的语音样本数据,利用源域的语音样本数据训练语音识别网络,同时利用源域的语音样本数据和目标域的语音样本数据训练具有对抗关系的特征提取网络和域分类网络,以使特征提取网络提取的特征为域不变和语音识别网络可识别的特征,最后得到在回声场景下具有鲁棒性的语音识别模型。
-
公开(公告)号:CN111862952A
公开(公告)日:2020-10-30
申请号:CN201910346319.2
申请日:2019-04-26
Applicant: 华为技术有限公司
Abstract: 本申请公开了人工智能技术领域中的一种去混响模型训练方法及装置,其中去混响模型训练方法包括:将语音对样本中的混响语音样本输入到第一去混响模型进行处理,得到所述混响语音样本对应的去混响语音;将所述混响语音样本对应的去混响语音输入到声学模型,得到所述声学模型输出的第一输出结果;将所述语音对样本中的纯净语音样本输入到所述声学模型,得到所述声学模型输出的第二输出结果;计算所述第一输出结果和所述第二输出结果的误差,根据所述误差对所述第一去混响模型的参数进行调整,得到第二去混响模型。用以避免对已有声学模型产生影响,提高训练得到的去混响模型与声学模型的匹配度,进而提高混响语音识别的准确性。
-
公开(公告)号:CN112216307B
公开(公告)日:2023-05-16
申请号:CN201910631571.8
申请日:2019-07-12
Applicant: 华为技术有限公司
Abstract: 本申请提供了一种语音情感识别方法、装置以及系统,可应用于人工智能领域语音识别场景。所述方法包括:获取语音数据,其中,语音数据包括t个语音帧I1,I2,…,It;将语音帧I1,I2,…,It分别输入声学特征识别模型,从而得到语音帧I1,I2,…,It各自的情感声学特征数据S1,S2,…,St;将语音帧I1,I2,…,It分别输入音素识别模型,从而得到语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt;根据语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt,确定语音帧I1,I2,…,It各自的音素数据N1,N2,…,Nt;将情感声学特征数据S1,S2,…,St和音素数据N1,N2,…,Nt进行融合,从而得到融合数据R1,R2,…,Rt;将融合数据R1,R2,…,Rt输入情感状态识别模型,从而确定语音数据的情感状态。
-
公开(公告)号:CN115148197A
公开(公告)日:2022-10-04
申请号:CN202110348176.6
申请日:2021-03-31
Applicant: 华为技术有限公司
Abstract: 本申请涉及终端技术领域,尤其涉及一种语音唤醒方法、装置、存储介质及系统。该方法包括:获取原始的第一麦克风数据;根据第一麦克风数据进行第一级处理得到第一唤醒数据,第一级处理包括基于神经网络模型的第一级分离处理和第一级唤醒处理;当第一唤醒数据指示预唤醒成功时根据第一麦克风数据进行第二级处理得到第二唤醒数据,第二级处理包括基于神经网络模型的第二级分离处理和第二级唤醒处理;根据第二唤醒数据确定唤醒结果。本申请实施例通过设计两级分离和唤醒方案,在第一级场景下通过第一级分离和唤醒方案进行预唤醒判断,在预唤醒成功后在第二级场景下再次进行唤醒确认,保证较高的唤醒率的同时降低了误唤醒率。
-
-
-
-
-
-
-
-
-