-
公开(公告)号:CN103531196B
公开(公告)日:2016-04-13
申请号:CN201310481306.9
申请日:2013-10-15
Applicant: 中国科学院自动化研究所
IPC: G10L13/02
Abstract: 本发明公开了一种波形拼接语音合成的选音方法,该方法包括以下步骤:基于原始音频进行基于隐马尔可夫的模型训练,得到声学模型集及对应的特征决策树;输入若干训练文本,基于特征决策树搜索得到相关声学模型,进而得到对应的目标语音和目标音节;根据目标语音与其对应的候选基元的相似度,和候选基元的各声学参数在当前声学模型下的似然概率,训练得到相似度分类器;输入任意待合成文本,基于相似度分类器剔除不相似的候选基元,对于剩余的候选基元,利用拼接代价最小原则选择得到最佳基元,并拼接得到合成语音。采用本发明方法可以合成出较高音质的语音。
-
公开(公告)号:CN104112444A
公开(公告)日:2014-10-22
申请号:CN201410362838.5
申请日:2014-07-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明一种基于文本信息的波形拼接语音合成方法,该方法包括:步骤S1:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练时长预测模型与权重预测模型;步骤S2:采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;步骤S3:对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。
-
公开(公告)号:CN102831606B
公开(公告)日:2014-10-22
申请号:CN201210272187.1
申请日:2012-08-01
Applicant: 中国科学院自动化研究所
IPC: G06T7/00
Abstract: 本发明提供了一种在医学影像中获取发音器官轮廓的方法。该方法包括:对于医学图像,利用唇部与背景的自动分割阈值,对医学影像中嘴唇与背景区域进行二值化,得到唇部轮廓;在唇部轮廓包含的面部范围内,提取上牙齿轮廓、下牙齿轮廓、上颌轮廓和下颌轮廓;针对上颌轮廓和下颌轮廓之间图像区域,获取舌位轮廓的可靠边缘点;以及由舌位轮廓的可靠边缘点拟合出舌位边缘轮廓。本发明能自动从影像背景中分割出发音人头部、器官区域,整个过程自动完成,无需人工交互。
-
公开(公告)号:CN103035238B
公开(公告)日:2014-09-17
申请号:CN201210487489.0
申请日:2012-11-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种音频数据的编码方法和解码方法。该编码方法包括:获取原始音频,通过短时能量和短时过零率进行端点检测,剔除原始音频中的非音频数据,获得语音段数据;从语音段数据提取特征参数,通过已训练的隐马尔科夫模型和Viterbi算法,对每帧语音段数据进行状态识别,确定状态序列和状态时长;以及对状态序列和状态时长进行编码,生成音频数据包。本发明可以在低编码速率的情况下,保持较高的语音音质。
-
公开(公告)号:CN102750955B
公开(公告)日:2014-06-18
申请号:CN201210253946.X
申请日:2012-07-20
Applicant: 中国科学院自动化研究所
IPC: G10L13/047
Abstract: 本发明提供了一种基于残差信号频谱重构的声码器,包括:参数提取模块,用于接收待分析的语音数据、计算基频参数和频谱参数;逆滤波模块,用于根据频谱参数设计逆滤波器对语音数据逆滤波,获得残差信号;周期信号支路,与逆滤波模块相连接,用于根据基频参数和逆滤波后的残差信号,生成周期激励信号;非周期信号支路,与逆滤波模块相连接,用于根据基频参数和逆滤波后的残差信号,生成非周期激励信号;以及参数语音合成器模块,与周期信号支路和非周期信号支路相连接,用于根据周期频谱参数、周期激励信号和非周期激励信号,调用语音合成器合成语音。本发明对逆滤波后的残差信号进行建模,使激励信号具有较高的准确性,提高了合成语音的音质。
-
公开(公告)号:CN103700130A
公开(公告)日:2014-04-02
申请号:CN201310746136.2
申请日:2013-12-30
Applicant: 中国科学院自动化研究所
IPC: G06T13/80
Abstract: 本发明提供了一种发音器官动画生成方法,包括:发音器官运动关键点的定义,各发音器官的中矢状面的二维网格的生成,发音器官纹理贴图,基于薄板样条的网格运动计算。本发明由发音器官运动关键点的位置,推算出发音器官中矢状面的形状,进而可以由发音器官运动关键点的运动,直接得到整个发音器官在中矢状面的运动情况,其优势在于简化的发音器官运动的描述参数,降低了发音器官动画制作的难度。
-
公开(公告)号:CN102820030A
公开(公告)日:2012-12-12
申请号:CN201210265448.7
申请日:2012-07-27
Applicant: 中国科学院自动化研究所
IPC: G10L13/00
Abstract: 本发明提供了一种发音器官可视语音合成系统,包括:音频分析模块、参数映射模块、动画驱动模块和运动分析模块,其中:音频分析模块,用于接收输入的说话人语音信号,根据能量信息判断静音段,将非静音段语音进行编码,输出语音线谱对参数;参数映射模块,用于接收音频分析模块实时传递来的语音线谱对参数,并利用经过训练的混合高斯模型,将其转化为模型运动参数;动画驱动模块,用于接收参数映射模块实时生成的模型运动参数,驱动虚拟发音器官模型的关键点运动,进而带动整个虚拟发音器官模型的运动。本发明直接由输入语音的频域参数生成相应的运动参数来带动模型运动,具有不受在线数据库的限制和生理模型的限制优点。
-
公开(公告)号:CN102750955A
公开(公告)日:2012-10-24
申请号:CN201210253946.X
申请日:2012-07-20
Applicant: 中国科学院自动化研究所
IPC: G10L19/12
Abstract: 本发明提供了一种基于残差信号频谱重构的声码器,包括:参数提取模块,用于接收待分析的语音数据、计算基频参数和频谱参数;逆滤波模块,用于根据频谱参数设计逆滤波器对语音数据逆滤波,获得残差信号;周期信号支路,与逆滤波模块相连接,用于根据基频参数和逆滤波后的残差信号,生成周期激励信号;非周期信号支路,与逆滤波模块相连接,用于根据基频参数和逆滤波后的残差信号,生成非周期激励信号;以及参数语音合成器模块,与周期信号支路和非周期信号支路相连接,用于根据周期频谱参数、周期激励信号和非周期激励信号,调用语音合成器合成语音。本发明对逆滤波后的残差信号进行建模,使激励信号具有较高的准确性,提高了合成语音的音质。
-
公开(公告)号:CN100430963C
公开(公告)日:2008-11-05
申请号:CN200510108136.5
申请日:2005-09-29
Applicant: 中国科学院自动化研究所
IPC: G06T17/00
Abstract: 基于正交图像的快速个性化人脸建模方法,包括步骤:利用摄像机拍摄两幅正交人脸图像,即正面人脸图像和侧面人脸图像。对两幅图像进行归一化处理,通过对通用人脸网格模型的投影,得到和正交图像对应的两个方向的投影网格。在人脸图像和投影网格上选择对应的特征点,利用匹配算法求得二者之间的最佳匹配参数,然后对所有的投影网格进行匹配,得到匹配后的网格特征点的位置,并利用径向基函数插值算法对结果进行插值,得到精确的匹配结果。然后从两个匹配后的投影网格恢复其三维信息,得到个性化的人脸网格模型。再对该网格模型进行纹理映射,获得最终的个性化人脸模型。该模型可以用于人脸动画、人脸识别等多个领域。
-
公开(公告)号:CN101064103A
公开(公告)日:2007-10-31
申请号:CN200610076015.1
申请日:2006-04-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于音节韵律约束关系的汉语语音合成方法及系统,系统包括:文本输入模块、韵律处理模块、语音输出模块。方法包括:接收或输入任意文字串转换成语音输出;文本分析对输入文本格式和内容分析并转换成音节序列串;韵律预测模块接收附着韵律信息的音节序列串,利用统计模型预测出与其对应的目标韵律值;波形拼接模块接收所述附着目标韵律值的音节序列串,根据所述音节序列携带的韵律信息从所述压缩语音库中选取与目标韵律值最为接近的样本并拼接;语音输出模块播放韵律表现接近于自然的拼接语音。依据本发明将极大提高系统合成语音的自然度和流畅度,从而使得输出的语音非常自然,几乎接近真人所发出的语音。
-
-
-
-
-
-
-
-
-