基于LSTM循环神经网络的基频提取模型及训练方法

    公开(公告)号:CN106653056A

    公开(公告)日:2017-05-10

    申请号:CN201611030326.4

    申请日:2016-11-16

    Abstract: 本发明公开了基于LSTM(长短时记忆)循环神经网络的基频提取模型及训练方法。所述训练方法包括下述步骤:从语音波形信号中抽取声学特征;采用多任务学习的双向长短时记忆循环神经网络,通过所述声学特征,训练生成基于多任务学习的双向长短时记忆循环神经网络的基频提取模型。所述基频提取模型通过本发明的方法训练得到。本发明大大提高了基频提取的精度和鲁棒性,特别是很好地解决了基提取中的半倍频现象,能够在语音分离、语音合成等领域起到很好的作用。

    一种基于多尺度时序建模的维度情感识别方法

    公开(公告)号:CN104361316B

    公开(公告)日:2017-04-19

    申请号:CN201410601169.2

    申请日:2014-10-30

    Abstract: 本发明公开了一种基于多尺度时序建模的维度情感识别方法,该方法包括以下步骤:对于视频序列中的每帧图像进行人脸检测及跟踪,并提取人脸关键点作为第一类组人脸特征;提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中像素的灰度值作为第二、三、四类组人脸特征;根据单位时间段t内多帧图像的四类组人脸特征进行维度情感初步预测;根据连续N个单位时间段t的情感初步预测结果用线性回归器进行时序及模态融合,输出视频序列的情感预测值。本发明方法对视频序列信号进行不同尺度的时序建模,实现了序列中每一时序单元的精确预测。本发明适用于视频中人脸信号的情感识别,具有实时性好、并能够大幅度提高识别精度等优点。

    一种高效的语音检测方法

    公开(公告)号:CN103646649B

    公开(公告)日:2016-04-13

    申请号:CN201310743203.5

    申请日:2013-12-30

    Inventor: 陶建华 刘斌

    Abstract: 本发明公开了一种语音检测方法,该方法包括以下步骤:在时域上分析原始音频的短时能量和短时过零率,剔除其中的部分非语音信号;在频域上分析保留下来的音频信号子带的谱包络特性和子带的熵特性,进一步剔除其中的部分非语音信号;将保留的各帧音频信号中特征相似的连续帧组成音频段;计算每段音频中各帧梅尔倒谱系数的均值,将其分别输入到语音高斯混合模型和各种非语音高斯混合模型中,根据各模型的输出概率对于该音频段中是否包含语音数据进行段级决策,最终得到语音检测结果。本发明能够在各种复杂环境下从音频数据流中检测到语音信号,可以相对准确的定位语音段数据和非语音段数据之间的边界。

    一种基于多尺度时序建模的维度情感识别方法

    公开(公告)号:CN104361316A

    公开(公告)日:2015-02-18

    申请号:CN201410601169.2

    申请日:2014-10-30

    Abstract: 本发明公开了一种基于多尺度时序建模的维度情感识别方法,该方法包括以下步骤:对于视频序列中的每帧图像进行人脸检测及跟踪,并提取人脸关键点作为第一类组人脸特征;提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中像素的灰度值作为第二、三、四类组人脸特征;根据单位时间段t内多帧图像的四类组人脸特征进行维度情感初步预测;根据连续N个单位时间段t的情感初步预测结果用线性回归器进行时序及模态融合,输出视频序列的情感预测值。本发明方法对视频序列信号进行不同尺度的时序建模,实现了序列中每一时序单元的精确预测。本发明适用于视频中人脸信号的情感识别,具有实时性好、并能够大幅度提高识别精度等优点。

    一种高效的语音检测方法

    公开(公告)号:CN103646649A

    公开(公告)日:2014-03-19

    申请号:CN201310743203.5

    申请日:2013-12-30

    Inventor: 陶建华 刘斌

    Abstract: 本发明公开了一种语音检测方法,该方法包括以下步骤:在时域上分析原始音频的短时能量和短时过零率,剔除其中的部分非语音信号;在频域上分析保留下来的音频信号子带的谱包络特性和子带的熵特性,进一步剔除其中的部分非语音信号;将保留的各帧音频信号中特征相似的连续帧组成音频段;计算每段音频中各帧梅尔倒谱系数的均值,将其分别输入到语音高斯混合模型和各种非语音高斯混合模型中,根据各模型的输出概率对于该音频段中是否包含语音数据进行段级决策,最终得到语音检测结果。本发明能够在各种复杂环境下从音频数据流中检测到语音信号,可以相对准确的定位语音段数据和非语音段数据之间的边界。

    基于隐马尔可夫模型状态映射的文本无关语音转换系统

    公开(公告)号:CN101751922B

    公开(公告)日:2011-12-07

    申请号:CN200910089586.2

    申请日:2009-07-22

    Inventor: 陶建华 张蒙

    Abstract: 本发明基于隐马尔可夫模型状态映射的文本无关语音转换系统,由数据对齐模块接收源和目标说话人语音参数,根据音素信息对齐输入数据来生成状态对齐的数据对;频谱转换模型生成模块接收对齐过的数据对,根据数据建立基于源和目标说话人语音频谱参数转换模型;韵律转换模型生成模块接收对齐过的数据对,根据数据建立基于源和目标说话人语音韵律参数转换模型;在线转换模块根据频谱转换模型生成模块和韵律转换模型生成模块生成的转换模型和源说话人的待转换语音数据,得到转换后的语音频谱参数和韵律参数;参数语音合成器模块接收来自于在线转换模块的转换后的频谱信息和韵律信息,输出转换后的语音结果。

    一种对普通话重音进行层次化建模和预测的方法

    公开(公告)号:CN102254554A

    公开(公告)日:2011-11-23

    申请号:CN201110200330.1

    申请日:2011-07-18

    Inventor: 陶建华 李雅

    Abstract: 本发明公开了一种对普通话重音进行层次化建模和预测的方法,该方法采用层次化重音描述体系对普通话重音进行描述,包括:选择合适的重音描述体系,创建层级标注的重音语料库;训练生成韵律词重音预测模型;训练生成句重音预测模型;以及根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果。利用本发明,提高了重音模型的精细度,同时也保证了较高的重音预测正确率和召回率,进而提高合成语音的自然度和表现力,能够以更精确的描述语音中用于表现韵律凸显的重音现象,同时能够从任意输入的文本得到较为细致的重音等级标注结果。

    基于语音转换的情感语音生成方法

    公开(公告)号:CN101064104B

    公开(公告)日:2011-02-02

    申请号:CN200610076014.7

    申请日:2006-04-24

    Inventor: 陶建华 康永国

    Abstract: 本发明公开一种新的基于语音转换的情感语音生成方法,包括训练阶段,对中性语音和情感语音分别提取频谱和基频特征,分别在频谱和基频特征上建立中性语音和情感语音的映射关系,在基频的表示和转换上是基于基频目标模型。对中性语音和情感语音的基频曲线提取模型参数,使用高斯混合模型和分类回归树的方法建立基频目标模型参数间的映射函数;包括生成阶段,同样对要转换的中性语音提取频谱和基频特征,对于基频特征通过利用训练阶段获得的映射函数对基频曲线进行转换,使得转换基频曲线具有情感的特性。最后将转换后的频谱和基频曲线合成为带有相应情感的转换语音。本发明可以用于个性化语音合成、带有表现力的语音合成等多个领域。

    一种嵌入式语音合成方法及系统

    公开(公告)号:CN1924994B

    公开(公告)日:2010-11-03

    申请号:CN200510086311.5

    申请日:2005-08-31

    Inventor: 陶建华 张皖志

    Abstract: 本发明公开了一种嵌入式语音合成方法及系统,用于手持数字移动设备操作系统,将系统接收到的或输入的任意文字串转换成语音输出。以汉语中的声韵母作为合成系统及语音库的基本单元;首先创建基于声韵母的原始语音库,然后基于声韵母样本的上下文环境属性以及声学特征,对所述原始语音库进行量化压缩,最后通过语音压缩算法对所述量化压缩后的语料库进行编码压缩,得到最终的压缩语音库。依据本发明提供的方法可提升合成系统的可压缩性,从而降低其在嵌入式平台下所占用的系统资源,同时可使得合成结果保持较好的自然度和可懂度。

    基于隐马尔可夫模型状态映射的文本无关语音转换系统

    公开(公告)号:CN101751922A

    公开(公告)日:2010-06-23

    申请号:CN200910089586.2

    申请日:2009-07-22

    Inventor: 陶建华 张蒙

    Abstract: 本发明基于隐马尔可夫模型状态映射的文本无关语音转换系统,由数据对齐模块接收源和目标说话人语音参数,根据音素信息对齐输入数据来生成状态对齐的数据对;频谱转换模型生成模块接收对齐过的数据对,根据数据建立基于源和目标说话人语音频谱参数转换模型;韵律转换模型生成模块接收对齐过的数据对,根据数据建立基于源和目标说话人语音韵律参数转换模型;在线转换模块根据频谱转换模型生成模块和韵律转换模型生成模块生成的转换模型和源说话人的待转换语音数据,得到转换后的语音频谱参数和韵律参数;参数语音合成器模块接收来自于在线转换模块的转换后的频谱信息和韵律信息,输出转换后的语音结果。

Patent Agency Ranking