-
公开(公告)号:CN114783443B
公开(公告)日:2024-11-01
申请号:CN202210325453.6
申请日:2022-03-30
Applicant: 中国科学院声学研究所
Abstract: 本申请提出一种语音识别模型的个性化联邦学习方法和系统,应用于中心端和多个客户端,在中心端,该方法包括:利用本地有标注语音样本进行有监督的训练语音识别模型,获得所述语音识别模型的种子模型,所述种子模型包括特征提取器及分类器;所述特征提取器用于处理多个客户端输入的语音信息,确定多个客户端中每个客户端的语音信息的个性化特征;利用所述多个客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,获得训练好的分类器;将所述训练好的分类器传递至所述多个客户端中每个客户端。本申请通过将语音识别模型的特征提取器与分类器进行解耦优化的方式实现个性化联邦学习,有效提升语音识别模型性能,降低错误识别率。
-
公开(公告)号:CN114783425B
公开(公告)日:2024-10-01
申请号:CN202210326775.2
申请日:2022-03-30
Applicant: 中国科学院声学研究所
Abstract: 本申请涉及一种基于私有参数的语音识别联邦学习方法和系统,应用于中心端和多个客户端,在所述中心端,所述方法包括:利用本地有标注语音样本进行有监督地训练语音识别模型,获得所述语音识别模型的种子模型;根据所述种子模型确定第一私有参数和第一共享参数;根据多个第二共享参数更新所述第一共享参数;所述多个第二共享参数由多个客户端上传得到;将更新后的所述第一共享参数传递至所述多个客户端中每个客户端。本申请实施例利用模型中的私有参数实现对每个客户端的个性化建模,从而可以通过一次训练产生针对多个客户端的个性化语音识别模型,有效提升语音识别模型在每个客户端的性能。
-
公开(公告)号:CN112289304B
公开(公告)日:2024-05-31
申请号:CN201910671050.5
申请日:2019-07-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于变分自编码器的多说话人语音合成方法,包括:提取一条待合成说话人干净语音的音素级别时长参数和帧级别声学参数,将归一化的音素级别时长参数输入第一变分自编码器,输出时长说话人标签;将归一化的帧级别声学参数输入第二变分自编码器,输出声学说话人标签;对待合成的包含多个说话人的语音信号提取帧级别语言学特征和音素级别语言学特征;将时长说话人标签和归一化的音素级别语言学特征输入时长预测网络,输出当前音素预测时长;通过当前音素预测时长获得该音素的帧级别语言学特征,将其与声学说话人标签输入声学参数预测网络,输出归一化的预测语音的声学参数;将归一化的预测语音声学参数输入声码器,输出合成语音信号。
-
公开(公告)号:CN113707127B
公开(公告)日:2023-12-15
申请号:CN202111007669.X
申请日:2021-08-30
Applicant: 中国科学院声学研究所
Abstract: 本申请涉及一种基于线性自注意力的语音合成方法和系统,所述方法包括:根据音频进行处理,获得对应文本的音素序列;根据所述音素序列通过神经网络编码器得到第一文本特征序列;所述神经网络编码器用于对所述音素序列进行线性自注意力计算和乘性位置编码以得到第一文本特征序列;根据所述第一文本特征序列通过时长预测模型扩增得到第二文本特征序列;根据所述第二文本特征序列通过神经网络解码器得到对应的梅尔谱特征序列;根据所述梅尔谱特征序列通过神经网络声码器得到转换后的语音。本申请以线性的时间、空间复杂度输出梅尔谱,输入神经网络声码器得到语音。该方法解决了传统并行语音合成声学模型时间、空间复杂度较高的问题。
-
公开(公告)号:CN113539238B
公开(公告)日:2023-12-08
申请号:CN202010247070.2
申请日:2020-03-31
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况(56)对比文件金马 等.基于卷积神经网络的语种识别系统《.数据采集与处理》.2019,第34卷(第2期),第321-330页.
-
公开(公告)号:CN113793622B
公开(公告)日:2023-08-29
申请号:CN202111064395.8
申请日:2021-09-10
Applicant: 中国科学院声学研究所
IPC: G10L25/18 , G10L25/30 , G10L25/45 , G06F18/213 , G06F18/24 , G06N3/0464 , G06N3/084
Abstract: 本发明涉及一种音频场景识别方法,方法包括:获取待识别音频;对待识别音频进行小波特征提取,以确定待识别音频对应的小波特征;将待识别音频对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器中,以得到至少一个深度嵌入特征序列;将待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器中,以确定出待识别音频所对应的音频场景。本发明提取待识别语音数据的小波特征,可以自适应时频信号分析的要求。同时结合具有残差网络结构的神经网络嵌入特征提取器可以在大量数据训练时,保障提取的深度嵌入特征在识别时具有更高的准确率,还可极大提升对短时音频的识别性能。
-
公开(公告)号:CN113420111B
公开(公告)日:2023-08-11
申请号:CN202110674586.X
申请日:2021-06-17
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06F40/126 , G06F40/289 , G06F40/30 , G06F18/24 , G06N3/02
Abstract: 本申请实施例公开了一种用于多跳推理问题的智能问答方法及装置,方法包括:获取问题文本;对问题文本进行语义编码,获得问题文本的语义编码表示;根据问题文本的语义编码表示,确定第一预测结果,第一预测结果为问题文本的至少一个问题主体所在位置的预测结果;根据问题文本的语义编码表示,确定第二预测结果,第二预测结果为问题文本的至少一个问题关系的预测结果;根据第一预测结果和第二预测结果,生成子问题文本,子问题文本包括至少一个子问题;根据筛选文档,对至少一个子问题依次进行回答,获得与至少一个子问题对应的答案,筛选文档包括至少一个子问题对应的答案;根据至少一个子问题对应的答案,确定问题文本的最终答案。
-
公开(公告)号:CN111179920B
公开(公告)日:2023-01-24
申请号:CN201911415037.X
申请日:2019-12-31
Applicant: 中国科学院声学研究所
IPC: G10L15/20 , G10L21/02 , G10L21/0216
Abstract: 本发明提供一种端到端远场语音识别方法及系统。在一个实施例中,将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;将增强后的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;将优化后的多通道信号作为最终识别结果,并输出。通过将神经网络波束形成和声学建模结合进行联合优化以及将最大信噪比优化准则和语音识别准则进行联合优化。解决了前端语音增强和语音识非一致优化的问题。
-
公开(公告)号:CN115457932A
公开(公告)日:2022-12-09
申请号:CN202211077901.1
申请日:2022-09-05
Applicant: 中国科学院声学研究所
Abstract: 本申请提供了一种韵律边界预测方法及系统,包括:使用标注文本对已有的韵律模型进行训练,得到K个低精度韵律模型;使用K个低精度韵律模型,对无标注文本进行标注,得到K组低精度弱标签;使用HMM增强模型,从K组所述低精度弱标签中,推断增强标签;使用无标注数据集与所述增强标签对基于Bert的韵律边界预测模型进行模型训练,将待预测的无标注数据输入所述基于Bert的韵律边界预测模型,得到对应的预测韵律边界标签。本申请仅利用少量标注数据和大量无标注数据,就可以完成对基于Bert的韵律边界预测模型的高质量训练,减少因数据过少的过拟合问题。
-
公开(公告)号:CN112951211B
公开(公告)日:2022-10-18
申请号:CN202110437391.3
申请日:2021-04-22
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例公开了一种语音唤醒方法及装置,方法包括:接收用户语音;提取用户语音中每一帧的声学特征;将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列;对后验概率进行最小编辑距离加和置信度判决;若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块,对关键词进行优化,加强了建模效果;依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统,提高了识别关键词的能力。
-
-
-
-
-
-
-
-
-