一种用于参数化语音合成的基频建模方法

    公开(公告)号:CN104538026B

    公开(公告)日:2018-10-23

    申请号:CN201510015224.4

    申请日:2015-01-12

    Inventor: 谢湘 那兴宇

    Abstract: 本发明涉及一种用于参数化语音合成的基频建模方法,能够对音节的整体基频包络进行可训练的参数化描述,以捕捉目标说话人在不同语境和情绪下的长时基频包络变化,进而提高合成语音的韵律表现力;属于语音合成技术领域。本发明方法首先提取训练语料的基频,并对基频目标参数s、r和ω0进行估计;然后对基频目标参数进行统计建模得到音节基频目标模型λu与短时基频模型λf;最后采用最大似然参数生成算法生成基频包络f。对比现有技术,本发明方法不带有明显的说话人总体特征(如性别、年龄等),但体现有说话人的时效特征(如情绪、语境等);且本发明方法可以直接用于语音合成,使用本发明方法的语音合成自然度有明显提升。

    一种基于两层模型的多声道音频质量评价方法

    公开(公告)号:CN107170468A

    公开(公告)日:2017-09-15

    申请号:CN201710228454.8

    申请日:2017-04-10

    Abstract: 本发明公开了一种基于两层模型的多声道音频质量评价方法,属于多声道音频质量评价技术领域。本方法首先将待测音频和参考音频经过第一层中的两个由主观听音测试结果训练得到的客观模型,即客观基本音质模型和客观空间质量模型,分别计算出客观的基本音质得分和空间质量得分,然后将该得分作为自变量输入第二层的由主观听音测试结果训练得到的整体客观模型,最终得到待测音频的整体客观分数,由此实现了对多声道音频质量的评价。本发明方法相较于以往的单层模型,不但可以帮助测试者更详细地了解待测音频的质量信息,而且具有更好的准确性。

    一种对话冲突检测方法及装置

    公开(公告)号:CN106531195A

    公开(公告)日:2017-03-22

    申请号:CN201610983739.8

    申请日:2016-11-08

    Abstract: 本发明公开了一种对话冲突检测方法及装置,应用于电子设备,该方法包括:针对待检测语音信号,将待检测语音信号划分为多个语音信号片段;针对每个语音信号片段,确定该第一语音信号片段的基因频率的均值、方差及极差,MFCC及一阶二阶差分特征参数的均值和方差,并识别该第一语音信号片段的无声段持续时间;并根据对话冲突检测模型确定当前待检测语音信号片段的冲突等级;根据冲突等级判断该语音信号片段是否为对话冲突语音片段。由于在本发明实施例中,在进行对话冲突检测时,只需对语音信号片段基因频率的均值、方差及极差等少量的参数进行运算,极大的减少了对话冲突检测时的计算量,提高了对话冲突检测的效率及反应速度。

    基于非负矩阵分解的音乐背景下语音增强方法

    公开(公告)号:CN104751855A

    公开(公告)日:2015-07-01

    申请号:CN201410683490.X

    申请日:2014-11-25

    Inventor: 谢湘 屠明

    Abstract: 本发明公开了一种基于非负矩阵分解的音乐背景下语音增强方法,属于语音分析或合成、音频分析或处理领域。本发明对音乐与语音的混合信号进行分帧和加窗,对短时傅里叶变换的幅度谱进行非负矩阵分解,其中背景音乐的基本矩阵通过训练得到,并在分解过程中保持固定,根据分解的结果合成语音信号的幅度谱,再结合原始混合信号的相位谱恢复增强后的语音信号。通过在不同的语音稀疏性限制和音乐的暂时连续性限制下进行测试,可见采用本方法增加背景音乐的暂时连续性限制可以有效的提高音乐背景下的语音增强效果。

    一种基于张量分解的多声道音频信号压缩方法

    公开(公告)号:CN102982805A

    公开(公告)日:2013-03-20

    申请号:CN201210579570.1

    申请日:2012-12-27

    Inventor: 王晶 谢湘 匡镜明

    Abstract: 本发明公开了一种基于张量分解的多声道音频信号压缩方法,属于音频信号处理技术领域,尤其是空间音频编解码技术领域。将每个声道的音频信号进行交叠分帧,并对每帧信号进行时频变换得到频域系数,将所有声道和所有帧序列的频域系数组合,建立三阶张量信号,并对其进行张量分解得到低秩核张量用于编码传输,解码端结合恢复的低秩核张量和事先训练的低秩投影矩阵进行张量信号重建,对重建后的张量信号再进行每个声道上反变换和交叠相加恢复多声道音频信号。本方法结合时频变换和张量分解对多声道音频信号进行分析和编解码,利用声道间和声道内的相关性去处冗余信息,能较大程度提高多声道音频信号的压缩效率。

    一种基于分数阶傅立叶变换的单声道混叠语音分离方法

    公开(公告)号:CN102054480A

    公开(公告)日:2011-05-11

    申请号:CN200910235901.8

    申请日:2009-10-29

    Abstract: 本发明涉及一种基于分数阶傅立叶变换的单声道混叠语音分离方法,属于音频信号处理技术领域。首先对混叠语音信号进行预处理,去除其静音段信号,找出浊音帧。然后,基于分数阶傅立叶变换,浊音帧信号进行基音检测,分离出混叠语音的基频,最后各条基频结合语音信号的正弦模型来合成语音,从而得到分离后的各个语音信号。本发明可有效的分离并提取出多个混叠语音的基频,最终实现混叠语音的有效分离;采用基于FrFT代替传统的FFT来提取基音频率,减少了谐波频谱的延展,得到更为准确的原始信号的基频。本发明尤其适用于分离含有两个人语音的单声道混叠语音。

    一种针对流媒体音频质量的客观评测方法

    公开(公告)号:CN102044248A

    公开(公告)日:2011-05-04

    申请号:CN200910235645.2

    申请日:2009-10-10

    Inventor: 杨越 谢湘 魏耀都

    Abstract: 本发明为一种针对流媒体音频质量的客观评测方法,在发送端获得原始音频,在接收端获得经过网络传输后引入了编解码器、丢包、延时抖动损伤的失真音频;针对带有网络特性的失真的音频进行预处理和对齐模块处理后,经过音频质量的感知评估PEAQ输出去掉延时和抖动的失真音频;对原始音频和对齐后的失真音频进行编解码器及丢包损伤质量评测;对于失真音频和对齐后的失真音频间的延时抖动带来的损伤进行网络损伤评估的客观质量评测;把这两部分损伤的质量评测值拟合,得到原始音频和经过网络传输后的失真音频的客观评测值。

    一种基于语音前向包络预测的差错隐藏方法

    公开(公告)号:CN101221765B

    公开(公告)日:2011-02-02

    申请号:CN200810057063.5

    申请日:2008-01-29

    Inventor: 尹辉 谢湘 匡镜明

    Abstract: 本发明涉及一种可应用于VoIP的差错隐藏方法。本发明所涉及的差错隐藏的方法是基于语音前向包络预测的,具体方法为:如果当前语音包丢失,或晚于该包的预定播放时间,则通过计算前两个语音包的幅度变化趋势来预测当前包的包络变化趋势,预测方法是基于对语音特性合理的假设得出的。根据预测的当前包包络变化的不同趋势,采用对前一包语音进行不同形式的处理后的语音来代替当前包进行播放。这种基于语音包络前向预测的差错隐藏方法不占用额外的传输带宽,不引入额外延时,对不同语言均适用,计算简单有效,极易实现。

    一种基于网络收集意见的语音及音频质量主观评价方法

    公开(公告)号:CN101266593A

    公开(公告)日:2008-09-17

    申请号:CN200810100862.6

    申请日:2008-02-25

    Inventor: 谢湘 魏耀都 阎娟

    Abstract: 本发明提供一种利用通信网络进行语音及音频质量主观评价的方法,包括语音及音频测试服务器,语音及音频测试客户端,包括以下步骤:管理员设计实验流程与待测语音及音频文件,通过网络上传至服务器。应征用户通过网络下载待测语音及音频文件并选择符合条件的环境进行测试。用户原始评分通过网络上传至服务器。服务器对用户原始评分进行处理,选择可用用户提交的数据进行统计。最后向管理员输出语音及音频质量的评价分数。

Patent Agency Ranking