-
公开(公告)号:CN102005205B
公开(公告)日:2012-10-03
申请号:CN200910170713.1
申请日:2009-09-03
Applicant: 株式会社东芝
Abstract: 本发明提供了情感语音合成方法和装置。根据本发明的一个方面,提供了一种情感语音合成方法,包括以下步骤:输入文本句;利用由第一说话人的中立语音库训练获得的中立特征模型,预测上述文本句在上述第一说话人的第一特征空间中的中立特征向量;利用由上述中立语音库和第二说话人的平行语音库训练获得的说话人规整模型,将上述中立特征向量变换为上述第二说话人的第二特征空间中的规整中立特征向量;利用由上述平行语音库训练获得的情感转换模型,将上述规整中立特征向量转换为上述第二特征空间中的规整情感特征向量;利用上述说话人规整模型,将上述规整情感特征向量逆变换为上述第一特征空间中的情感特征向量;以及利用上述第一特征空间中的情感特征向量合成出第一说话人的情感语音。
-
公开(公告)号:CN101051463A
公开(公告)日:2007-10-10
申请号:CN200610073142.6
申请日:2006-04-06
Applicant: 株式会社东芝
Abstract: 本发明提供了说话人认证的验证方法和装置以及说话人认证系统。本发明的说话人认证的验证方法包括:输入说话人说出的包含密码的语音;从上述输入的语音提取声学特征向量序列;对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配;计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离;对上述计算所得的各个节点距离进行非线性变换,以使对较小的节点距离给予较大的权重;根据上述非线性变换后的各个节点距离,计算DTW匹配得分;以及比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。
-
公开(公告)号:CN102203853B
公开(公告)日:2013-02-27
申请号:CN201080000927.5
申请日:2010-01-04
Applicant: 株式会社东芝
IPC: G10L13/02 , G10L19/018
CPC classification number: G10L13/02 , G10L19/018
Abstract: 本发明提供了合成语音的方法和装置。根据本发明的一个方面,提供了一种合成带有信息的语音的装置,包括:输入单元,其输入文本句;文本分析单元,其对上述输入单元输入的文本句进行文本分析,以提取语言学信息;参数生成单元,其利用上述文本分析单元提取的语言学信息和预先训练好的统计参数模型,生成语音参数;嵌入单元,其在上述语音参数中嵌入预定的信息;以及语音合成单元,其将利用上述嵌入单元嵌入了上述信息的上述语音参数合成为带有上述信息的语音。
-
公开(公告)号:CN101051463B
公开(公告)日:2012-07-11
申请号:CN200610073142.6
申请日:2006-04-06
Applicant: 株式会社东芝
Abstract: 本发明提供了说话人认证的验证方法和装置以及说话人认证系统。本发明的说话人认证的验证方法包括:输入说话人说出的包含密码的语音;从上述输入的语音提取声学特征向量序列;对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配;计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离;对上述计算所得的各个节点距离进行非线性变换,以使对较小的节点距离给予较大的权重;根据上述非线性变换后的各个节点距离,计算DTW匹配得分;以及比较 上述匹配得分和预先定义的分辨阈值,以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。
-
公开(公告)号:CN102511061A
公开(公告)日:2012-06-20
申请号:CN201080001520.4
申请日:2010-06-28
Applicant: 株式会社东芝
IPC: G10L13/06
CPC classification number: G10L13/06
Abstract: 本发明提供了在语音合成中用于融合浊音音素单元的方法和装置。本发明的一种用于融合浊音音素单元的装置包括:单元输入模块,其输入用于目标片段的浊音音素的多个单元;单元切分模块,其对多个单元的每个单元进行切分以获得每个单元的基音周期;参考单元选择模块,其基于每个单元的基音周期信息和目标片段的基音周期个数从多个单元中选择一个参考单元;模板创建模块,其基于参考单元和目标片段的基音周期个数创建一个模板;基音周期对齐模块,其利用动态规划算法将多个单元的除了参考单元的每个单元的基音周期与模板的基音周期对齐;基音周期融合模块,其将对齐的基音周期融合;以及基音周期拼接模块,其将融合的基音周期拼接为目标片段的融合单元。
-
公开(公告)号:CN101465123B
公开(公告)日:2011-07-06
申请号:CN200710199192.3
申请日:2007-12-20
Applicant: 株式会社东芝
IPC: G10L17/00
Abstract: 本发明提供了说话人认证的验证方法,说话人认证的验证装置以及说话人认证系统。根据本发明的一个方面,提供了一种说话人认证的验证方法,包括:输入说话人说出的包含密码的测试语音;从上述输入的测试语音提取声学特征向量序列;获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径;考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算上述获得的匹配路径的匹配得分;以及比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
-
公开(公告)号:CN102005205A
公开(公告)日:2011-04-06
申请号:CN200910170713.1
申请日:2009-09-03
Applicant: 株式会社东芝
Abstract: 本发明提供了情感语音合成方法和装置。根据本发明的一个方面,提供了一种情感语音合成方法,包括以下步骤:输入文本句;利用由第一说话人的中立语音库训练获得的中立特征模型,预测上述文本句在上述第一说话人的第一特征空间中的中立特征向量;利用由上述中立语音库和第二说话人的平行语音库训练获得的说话人规整模型,将上述中立特征向量变换为上述第二说话人的第二特征空间中的规整中立特征向量;利用由上述平行语音库训练获得的情感转换模型,将上述规整中立特征向量转换为上述第二特征空间中的规整情感特征向量;利用上述说话人规整模型,将上述规整情感特征向量逆变换为上述第一特征空间中的情感特征向量;以及利用上述第一特征空间中的情感特征向量合成出第一说话人的情感语音。
-
公开(公告)号:CN101154380B
公开(公告)日:2011-01-26
申请号:CN200610141241.3
申请日:2006-09-29
Applicant: 株式会社东芝
CPC classification number: G10L17/04
Abstract: 本发明提供了说话人认证的注册方法和装置、说话人认证的验证方法和装置、以及说话人认证系统。上述说话人认证的注册方法,包括:根据说话人说出的包含相同内容的多个语音,分别生成多个声学特征向量序列;根据上述多个声学特征向量序列生成一个参考模板;根据一个码本,为上述多个声学特征向量序列的每一个分别生成相应的伪冒充者声学特征向量序列,其中上述码本包含多个码字以及每个码字对应的特征向量;以及根据上述多个声学特征向量序列、上述参考模板和上述多个伪冒充者声学特征向量序列,选择优化的声学特征子集。
-
公开(公告)号:CN101465123A
公开(公告)日:2009-06-24
申请号:CN200710199192.3
申请日:2007-12-20
Applicant: 株式会社东芝
IPC: G10L17/00
Abstract: 本发明提供了说话人认证的验证方法,说话人认证的验证装置以及说话人认证系统。根据本发明的一个方面,提供了一种说话人认证的验证方法,包括:输入说话人说出的包含密码的测试语音;从上述输入的测试语音提取声学特征向量序列;获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径;考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算上述获得的匹配路径的匹配得分;以及比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
-
公开(公告)号:CN1963918A
公开(公告)日:2007-05-16
申请号:CN200510115300.5
申请日:2005-11-11
Applicant: 株式会社东芝
IPC: G10L17/00
CPC classification number: G10L17/04
Abstract: 本发明提供了说话人模板的压缩方法和装置、将多个说话人模板合并的方法和装置、说话人认证的注册方法和装置、说话人认证的验证方法和装置、以及说话人认证系统。该说话人模板包含多个特征向量。本发明的说话人模板的压缩方法包括:根据一个码本,为说话人模板中的每个上述特征向量指定一个码字,其中上述码本包含多个码字以及每个码字对应的特征向量;以及将上述说话人模板中相邻且被指定的码字相同的多个特征向量用一个特征向量代替。
-
-
-
-
-
-
-
-
-