-
公开(公告)号:CN106875942B
公开(公告)日:2021-01-22
申请号:CN201611232996.4
申请日:2016-12-28
Applicant: 中国科学院自动化研究所
IPC: G10L15/16 , G10L15/02 , G10L15/06 , G10L15/065 , G10L17/02
Abstract: 本发明属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明提供的方法包括下列步骤:S1基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于深度第二神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。通过本发明的方法,提高了带口音语音识别的准确率。
-
公开(公告)号:CN108364662B
公开(公告)日:2021-01-05
申请号:CN201711481953.4
申请日:2017-12-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及语音情感识别领域,具体涉及一种基于成对鉴别任务的语音情感识别方法与系统。目的在于解决情感标签的模糊性问题。本发明的语音情感识别系统,在训练过程中,将语音数据随机配对;然后提取语谱图特征并利用第一音向量提取模型生成成对音向量;再利用判别网络模型计算成对音频训练数据属于同一情感类别的概率;计算损失函数时,同时考虑成对音向量之间的余弦相似性损失,以及判别网络模型的输出值和预设标签之间的交叉熵。对于待识别语音,先提取语谱图特征,再用训练好的第一音向量提取模型生成音向量,最后用训练好的支持向量机进行情感分类。本发明通过成对鉴别任务训练语音情感模型,提升了基于语音的情感识别系统的性能。
-
公开(公告)号:CN107705801B
公开(公告)日:2020-10-02
申请号:CN201610634660.4
申请日:2016-08-05
Applicant: 中国科学院自动化研究所
IPC: G10L21/038 , G10L25/30
Abstract: 本发明公开了一种语音带宽扩展模型的训练方法和语音带宽扩展方法。其中,语音带宽扩展方法包括:获取待扩展窄带语音;计算所述待扩展窄带语音的幅值谱和相位谱,并提取所述待扩展窄带语音的辅助特征;采用训练后的所述语音带宽扩展模型对所述待扩展窄带语音的所述幅值谱和所述辅助特征进行处理,得到重构的宽带语音高频带的幅值谱;在频域上对所述待扩展窄带语音的所述相位谱进行镜像翻转,确定宽带语音高频带的相位谱;基于所述窄带语音的所述幅值谱和所述相位谱,并联合所述重构的宽带语音高频带的幅值谱和所述宽带语音高频带的相位谱,确定宽带语音信号。通过本发明,实现了提高窄带语音的音质和自然度的效果。
-
公开(公告)号:CN106653056B
公开(公告)日:2020-04-24
申请号:CN201611030326.4
申请日:2016-11-16
Applicant: 中国科学院自动化研究所
IPC: G10L25/30
Abstract: 本发明公开了基于LSTM(长短时记忆)循环神经网络的基频提取模型及训练方法。所述训练方法包括下述步骤:从语音波形信号中抽取声学特征;采用多任务学习的双向长短时记忆循环神经网络,通过所述声学特征,训练生成基于多任务学习的双向长短时记忆循环神经网络的基频提取模型。所述基频提取模型通过本发明的方法训练得到。本发明大大提高了基频提取的精度和鲁棒性,特别是很好地解决了基提取中的半倍频现象,能够在语音分离、语音合成等领域起到很好的作用。
-
公开(公告)号:CN107480100B
公开(公告)日:2020-02-28
申请号:CN201710536423.9
申请日:2017-07-04
Applicant: 中国科学院自动化研究所
IPC: G06F17/15
Abstract: 本发明涉及本发明涉及电子行业信号处理技术领域,提出了一种基于深层神经网络中间层特征的头相关传输函数建模系统,该系统包括训练系统、建模系统;所述训练系统包括特征生成模块、模型训练模块、HRTF数据库;所述建模系统包括特征生成模块、预测模块、HRTF重建模块;所述特征生成模块用以生成模型输入特征;所述模型训练模块用以在所述模型输入特征与HRTF数据库中的HRTF之间产生非线性映射;所述HRTF数据库用于存储HRTF;所述预测模块用以针对目标位置产生对数幅度最小相位HRTF;所述HRTF重建模块用以重构目标位置处的HRTF。本发明充分利用了HRTF数据与基函数之间的非线性关系,并提高模型准确度。
-
公开(公告)号:CN110532950A
公开(公告)日:2019-12-03
申请号:CN201910808102.9
申请日:2019-08-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于情感计算领域,特别涉及一种基于微表情视频的视频特征提取方法,旨在为了解决如何从视频中识别面部微小变化并提取出微表情特征,提高微表情识别精度和准确率的问题。本发明对待测目标人脸视频每一帧图像进行网格化处理,并进行二阶梯度的计算和数据分布统计,获取图像帧序列对应的图像特征表示序列;通过秩池化,按照时间顺序排序特征表示序列,获取视频特征表示;通过范数的行稀疏性获取微表情视频特征。本发明能够提取面部的局部细节信息,捕获人脸细节信息的动态变化,在提取微表情视频特征的同时进一步抑制面部中其他信息对识别结果的影响;进一步通过本发明的微表情识别方法,有效提高了微表情识别精度和准确率。
-
公开(公告)号:CN106531157B
公开(公告)日:2019-10-22
申请号:CN201610971766.3
申请日:2016-10-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种语音识别中的正则化口音自适应方法,所述方法包括下述步骤:步骤S100,对采集到的口音数据进行特征参数提取;步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型;步骤S102,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别;步骤S103,计算软化概率分布;步骤S104,正则化目标函数;步骤S105,利用正则化的损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。本发明中,通过对声学模型进行正则化自适应,提高了带口音的语音识别的准确率。
-
公开(公告)号:CN109003625A
公开(公告)日:2018-12-14
申请号:CN201810839374.0
申请日:2018-07-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于情感识别技术领域,具体涉及一种基于三元损失的语音情感识别方法及系统,旨在解决如何精确识别易混淆的情感类别的技术问题。为此目的,本发明的语音情感识别方法包括:对待测语音数据进行分帧处理,获取特定长度的语音序列;基于预设的情感时序编码网络并且根据语音序列进行时序编码获取语音序列对应的情感特征向量;基于预设的语音情感分类器并且根据多个预设的真实情感类别预测情感特征向量对应的情感类别。本发明的语音情感识别方法可以较好的识别易混淆的语音情感类别,同时本发明的语音情感识别系统能够执行并实现上述方法。
-
公开(公告)号:CN104112444B
公开(公告)日:2018-11-06
申请号:CN201410362838.5
申请日:2014-07-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明一种基于文本信息的波形拼接语音合成方法,该方法包括:步骤S1:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练时长预测模型与权重预测模型;步骤S2:采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;步骤S3:对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。
-
公开(公告)号:CN107609572A
公开(公告)日:2018-01-19
申请号:CN201710698379.1
申请日:2017-08-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及多模态情感计算领域,提出了一种基于神经网络和迁移学习的多模态情感识别方法、系统,旨在解决情感数据难以获取且标注困难,使得相应识别模型不能够充分训练,造成多模态情感识别准确率不能满足需求的问题,该方法基于大规模数据训练深度神经网络并通过迁移学习获取音频特征提取器、视频特征提取器,进而对多模态情感数据进行音频特征、视频特征的提取,从而识别各语音情感类别的概率、各视频情感类别的概率,并通概率值判断最终情感类别。该方法可以有效的融合音视频两个模态,提高了多模态情感识别的准确率。
-
-
-
-
-
-
-
-
-