一种采用循环帧单元选择的语音转换方法及系统

    公开(公告)号:CN114203192A

    公开(公告)日:2022-03-18

    申请号:CN202111482900.0

    申请日:2021-12-07

    Abstract: 本发明公开了一种采用循环帧单元选择的语音转换方法及系统,本发明方法按如下步骤:S1,使用源说话人和目标说话人的语音数据库,用SI‑DNN提取出音素后验概率作为频谱特征,获得基音频率作为韵律特征,分别使用KL散度和对数刻度上的绝对差作为特征失真程度的度量;S2,根据语音帧之间的特征失真,针对每个源帧找出与其距离最小的K个目标候选帧,从而对一段T帧的语音能构造对应的大小为T×K的候选矩阵,后搜索出最佳轨迹,再利用找出的最佳轨迹作为新的源语音输入,不断优化转换后的语音,直到找出效果最好的目标帧序列;S3,用RNN‑LSTM处理得到最佳韵律轨迹,获得增强的音调周期和音调相关性,再与最佳频谱轨迹合成语音波形,输出转换后的语音。

    一种用于声纹安全认证系统的重放语音攻击检测方法

    公开(公告)号:CN115376520A

    公开(公告)日:2022-11-22

    申请号:CN202211030037.X

    申请日:2022-08-26

    Abstract: 本发明提供一种用于声纹安全认证系统的重放语音攻击检测方法。首先将语音信号经过预处理,然后通过线性等宽的Gabor滤波器获得若干子带信号,将每个子带信号通过FDEO来获得瞬时幅度和瞬时频率,然后分别作为SENet的输入,得到增强后的IACC和IFCC特征,并且分别经过加窗取平均和离散余弦变换处理获得各自的低维特征向量。然后将提取的IACC和IFCC特征向量分别用来训练各自的高斯混合模型分类器,得到各自的分类器模型参数。在检测时,将待测语音的IACC和IFCC特征向量分别输入到各自的GMM分类器并进行可信度打分,最后进行分数级融合,以此实现真伪语音的判别。

    一种用于个性化语音生成的语音转换方法

    公开(公告)号:CN115376533A

    公开(公告)日:2022-11-22

    申请号:CN202210978891.2

    申请日:2022-08-16

    Abstract: 本发明使用基于音素的信息瓶颈来表征说话人风格和控制转换语音的速度,由内容编码器、说话人编码器、音素时长转换器、解码器和声码器组成。通过编码器和解码器之间的信息瓶颈从源语音中分离出内容信息,并将其与目标说话人嵌入一起输入解码器,最后输入声码器并生成转换后的语音。本发明通过引入持续时长转换器,利用设计好的音素级信息瓶颈来分离说话人内容信息和说话人风格信息,可以适用于零次学习,对训练数据集外的语音也同样适用。

    用于非平行语料的高质量语音转换方法

    公开(公告)号:CN114582363A

    公开(公告)日:2022-06-03

    申请号:CN202210156203.4

    申请日:2022-02-21

    Abstract: 本发明用于非平行语料的语音转换方法:(1)获取源说话人的语音数据库,提取源说话人的Mel谱图x,作为转换用的语音特征;(2)创建与源说话人Mel谱图x大小相同的时间掩码m,将m加到x上,填补x上缺少的帧,得到x′;(3)提取源说话人的基音频率F0,将F0经对数高斯归一化变换转换成目标说话人的基频F0′;(4)训练CycleGAN模型,在对抗损失中加入梯度惩罚;(5)变化总体目标函数;(6)将(2)、(3)得到的x′、基频F0′和创建的时间掩码m一起输入生成器GX→Y中,F0′作为辅助特征,调整Mel谱图的转换方向,生成器将x′转换成目标语音的Mel谱图y′;(7)把得到的转换Mel谱图y′馈入声码器中合成语音波形,获得与目标说话人相似的语音。

    一种伪装语音检测的系统及方法
    5.
    发明公开

    公开(公告)号:CN114283849A

    公开(公告)日:2022-04-05

    申请号:CN202111612756.8

    申请日:2021-12-27

    Abstract: 本发明公开了一种伪装语音检测系统及方法,系统包括如下:纹理分析模块:用于提取训练语音和评估语音的CSLBP特征向量,并将CSLBP特征向量输入随机森林分类器;随机森林分类器:根据纹理分析模块输入的训练语音的CSLBP特征向量进行训练得到分类模型;进行伪装语音检测时,经纹理分析模块处理的评估语音的CSLBP特征向量输入到分类模型中即可判别语音真伪。本发明根据真伪语音的纹理差异,提取语音信号的CSLBP特征做特征向量,不仅利用了语谱图中像素点的灰度值大小信息,还利用了各像素点的空间位置信息,与传统LBP特征相比包含的纹理信息更加丰富,提高了伪装语音检测的准确性。

Patent Agency Ranking