-
公开(公告)号:CN109377978A
公开(公告)日:2019-02-22
申请号:CN201811337338.0
申请日:2018-11-12
Applicant: 南京邮电大学
IPC: G10L13/08 , G10L19/02 , G10L21/007 , G10L13/02 , G10L25/30
CPC classification number: G10L13/08 , G10L13/02 , G10L19/02 , G10L21/007 , G10L25/30
Abstract: 本发明公开了一种非平行文本条件下基于i向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了VAWGAN与i向量相结合来实现语音转换系统,能够较好地提升转换后语音的个性相似度和语音质量,实现了一种高质量的语音转换方法。此外,本方法解除对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,本方法还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。
-
公开(公告)号:CN109326283A
公开(公告)日:2019-02-12
申请号:CN201811406355.5
申请日:2018-11-23
Applicant: 南京邮电大学
CPC classification number: G10L15/063 , G10L13/02 , G10L15/06 , G10L17/04 , G10L21/003 , G10L25/18 , G10L25/30
Abstract: 本发明公开了一种非平行文本条件下基于文本编码器的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与文本编码器(Text-Encoder)相结合来实现语音转换系统,在VAWGAN中加入代表语义的句子嵌入,能够较好地提升转换后语音的语音质量和个性相似度,实现高质量的语音转换。此外,本方法解除了对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。此外,本方法可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。
-
公开(公告)号:CN107103914A
公开(公告)日:2017-08-29
申请号:CN201710166971.7
申请日:2017-03-20
Applicant: 南京邮电大学
Abstract: 本发明公开了一种高质量的语音转换方法,该系统首先通过自组织聚类算法代替传统GMM模型中的K‑Means算法,并与EM算法迭代循环实现了说话人个性特征参数(MFCC)的训练及分类,接着进行双线性频率弯折加幅度压扩的训练,得到语音转换所需的转换函数,然后使用该转换函数进行高质量的语音转换。本发明针对语音特征参数空间分布状况与高斯混合模型的相关关系,使用迭代自组织聚类算法实现混合度的确定,解决了高斯混合模型在进行语音特征参数分类时不精确的问题,并将改进的高斯混合模型和双线性频率弯折加幅度压扩相结合,构建了一种高质量语音转换系统,在语音转换领域具有实用价值。
-
公开(公告)号:CN102063899B
公开(公告)日:2012-05-23
申请号:CN201010520107.0
申请日:2010-10-27
Applicant: 南京邮电大学
Abstract: 本发明提供一种非平行文本条件下的语音转换方法,属于语音信号处理技术领域。该方法首先对语音音素分类,其次对分类后的语音帧基于谐波加噪声模型进行分解,提取特征矢量;接着在每类音素集合中建立特征参数的转换函数,通过对每一类音素的频谱特征矢量,基于主成分语音分析建立非平行文本条件下的频谱转换模型;最后在转换阶段,形成目标说话人的估计特征,得到转换后的语音。本发明不仅能够有效分离语音信号中的语义信息和话者身份信息,增强转换语音中的话者信息,而且克服了训练阶段要求平行语料的限制,实现了非平行文本条件下的语音转换,同时降低了对语料数据量的依赖。
-
公开(公告)号:CN102063899A
公开(公告)日:2011-05-18
申请号:CN201010520107.0
申请日:2010-10-27
Applicant: 南京邮电大学
Abstract: 本发明提供一种非平行文本条件下的语音转换方法,属于语音信号处理技术领域。该方法首先对语音音素分类,其次对分类后的语音帧基于谐波加噪声模型进行分解,提取特征矢量;接着在每类音素集合中建立特征参数的转换函数,通过对每一类音素的频谱特征矢量,基于主成分语音分析建立非平行文本条件下的频谱转换模型;最后在转换阶段,形成目标说话人的估计特征,得到转换后的语音。本发明不仅能够有效分离语音信号中的语义信息和话者身份信息,增强转换语音中的话者信息,而且克服了训练阶段要求平行语料的限制,实现了非平行文本条件下的语音转换,同时降低了对语料数据量的依赖。
-
公开(公告)号:CN119296563A
公开(公告)日:2025-01-10
申请号:CN202411391984.0
申请日:2024-10-08
Applicant: 南京邮电大学
IPC: G10L21/0232 , G06N3/045 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/0895 , G10L25/18 , G10L25/30
Abstract: 本发明公开了一种基于去统计实例归一化的自监督语音增强方法,包括训练阶段和测试阶段;在训练阶段获取训练语料,构建语音增强模型并进行训练,得到语音增强模型所需的参数和损失函数,而在测试阶段实现含噪语音的增强。语音增强模型包括特征提取模块和语音增强模块,特征提取模块选用自监督学习模型WavLM,语音增强模块选用BLSTM作为主要框架;在特征提取模块和语音增强模块之间提出去统计实例归一化,解决序列数据中的均值和方差等统计属性随时间变化而产生的分布偏移问题,提高模型预测的准确性和去噪效果。本发明自监督语音增强方法能够有效提高语音增强的性能,获得更高的语音感知质量和可懂度,实现高质量的语音增强。
-
公开(公告)号:CN118865938A
公开(公告)日:2024-10-29
申请号:CN202410920631.9
申请日:2024-07-10
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于多特征建模和粒度感知的情感语音转换方法,包括:预训练阶段、微调阶段和转换阶段,其中预训练阶段和微调阶段用于有效实现情感语音语言内容和情感韵律的充分解纠缠,转换阶段则利用训练好的模型分别提取源情感语音的语言内容和目标情感语音的情感韵律以完成测试语料情感状态的转换。为了进一步地提高转换情感语音的情感饱和度,实现高表现力的情感转换效果,本发明还提出了多韵律特征建模和粒度感知的改进方法,分别从韵律特征的多样性和粒度感知性方面来优化韵律空间,从而能够挖掘出更多的韵律信息,有效提升了转换情感语音的情感饱和度。
-
公开(公告)号:CN118645083A
公开(公告)日:2024-09-13
申请号:CN202410920630.4
申请日:2024-07-10
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于多尺度信息的编‑解码器结构的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段中编码器对声学特征解耦,获得说话人信息表征和内容表征;编码器和解码器之间采用U型连接,将说话人信息表征从编码器传递到解码器;多尺度信息提取网络进一步提取内容表征中的多尺度信息;解码器将获取的说话人信息表征和包含多尺度信息的内容表征进行重构。本发明在训练阶段引入深度监督机制,在不同解码阶段引入监督信号,学习多尺度的重构特征表示,为最终输出重构特征提供多尺度信息;利用多尺度信息提取网络和深度监督机制,使转换语音包含更详细的多尺度信息,进一步提高转换语音的自然度,从而实现高质量的跨语种语音转换。
-
公开(公告)号:CN118298832A
公开(公告)日:2024-07-05
申请号:CN202410332064.5
申请日:2024-03-22
Applicant: 南京邮电大学
IPC: G10L17/02 , G06F18/241 , G06F18/213 , G06F18/214 , G06N3/048 , G06F18/25 , G10L17/04 , G10L17/06 , G10L17/18 , G10L17/22 , G10L25/24 , G10L25/30 , G10L25/51
Abstract: 本发明公开了一种基于特征增强注意力机制的语音欺骗检测方法,包括训练阶段和测试阶段,在训练阶段获取训练语料并进行预处理,构建语音欺骗检测模型,将训练语料的声学特征输入到检测模型中进行模型训练,检测模型包括特征提取和分类两大部分,在特征提取中提出特征增强注意力机制,包括局部编码模块和全局感知模块,局部编码模块用于聚合局部特征区域,全局感知模块用于捕获特征的全局远程依赖关系,然后将提取到的局部特征和全局特征进行融合得到增强特征,并输入至分类器中进行真伪分类;然后在测试阶段完成对真实语音和合成语音真伪的检测,实现高质量的语音欺骗检测。
-
公开(公告)号:CN111816156B
公开(公告)日:2023-07-21
申请号:CN202010488776.8
申请日:2020-06-02
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于说话人风格特征建模的多对多语音转换方法及系统,首先提出在StarGAN神经网络中添加多层感知器和风格编码器,实现对说话人风格特征的有效提取和约束,克服了传统模型中one‑hot向量携带说话人信息有限的缺点;接着采用自适应实例归一化方法实现语义特征和说话人个性特征的充分融合,使得网络可以学习到更多的语义信息与说话人个性信息;进一步在生成器残差网络中引入一种轻量级的网络模块SKNet,使得网络可以根据输入信息的多个尺度自适应地调节感受野的大小,并通过注意力机制调节每个特征通道的权重,增强对频谱特征的学习能力,细化频谱特征细节。
-
-
-
-
-
-
-
-
-