Patent search ap:("南京邮电大学") AND inv:"袁昌龙" Page 1

1.

发明授权
基于i向量和VARSGAN的多对多语音转换方法有权

公开(公告)号：CN110060691B

公开(公告)日：2023-02-28

申请号：CN201910304431.X

申请日：2019-04-16

Applicant: 南京邮电大学

Inventor： 李燕萍 , 袁昌龙 , 左宇涛 , 张燕

IPC: G10L17/02 , G10L17/04 , G10L17/18 , G10L17/22 , G10L25/18

Abstract: 本发明公开了一种基于i向量和VARSGAN的多对多语音转换方法，包括训练阶段和转换阶段，使用了VARSGAN(变分自编码器相对生成对抗网络)与i向量相结合的方式实现语音转换。通过构造相对判别器的方式，使得判别器的输出依赖于真实样本和生成样本间的相对值，在训练生成器时真实样本也能参与训练，从而改善了判别器中可能存在的偏置情况，使得梯度更加稳定，训练更加容易，并且把真实样本引入到生成器的训练中，从而加快了GAN的收敛速度，另外加入了能够充分表征说话人的个性特征的i向量，充分学习语义特征和说话人的个性化特征，从而更好地提升转换后语音的个性相似度和语音质量。

2.

发明公开
基于DenseNet STARGAN的多对多说话人转换方法有权

公开(公告)号：CN111833855A

公开(公告)日：2020-10-27

申请号：CN202010179723.8

申请日：2020-03-16

Applicant: 南京邮电大学

Inventor： 李燕萍 , 袁昌龙 , 徐玲俐

IPC: G10L15/08 , G10L15/16 , G10L15/18 , G10L15/06

Abstract: 本发明公开了一种基于DenseNet STARGAN的多对多说话人转换方法，采用STARGAN与DenseNet相结合来实现语音转换系统，并将GELU激活函数引入STARGAN中。一方面利用DenseNet来解决训练过程中网络退化问题，有助于训练过程中梯度的反向传播，提升深层网络训练效率，另一方面，使用GELU激活函数替换掉常规使用的ReLU激活函数，具有更强的非线性表示能力，有效解决了ReLU在负区间处于失活状态的缺点，进一步缓解了训练过程中网络退化的问题，增强了STARGAN模型的表征能力，很好地改善了转换后语音的个性相似度和语音质量，实现了一种高质量的多说话人到多说话人的语音转换方法，在跨语种语音转换、电影配音、语音翻译等领域有良好的应用前景。

3.

发明公开
基于i向量和VARSGAN的多对多语音转换方法有权

公开(公告)号：CN110060691A

公开(公告)日：2019-07-26

申请号：CN201910304431.X

申请日：2019-04-16

Applicant: 南京邮电大学

Inventor： 李燕萍 , 袁昌龙 , 左宇涛 , 张燕

IPC: G10L17/02 , G10L17/04 , G10L17/18 , G10L17/22 , G10L25/18

Abstract: 本发明公开了一种基于i向量和VARSGAN的多对多语音转换方法，包括训练阶段和转换阶段，使用了VARSGAN(变分自编码器相对生成对抗网络)与i向量相结合的方式实现语音转换。通过构造相对判别器的方式，使得判别器的输出依赖于真实样本和生成样本间的相对值，在训练生成器时真实样本也能参与训练，从而改善了判别器中可能存在的偏置情况，使得梯度更加稳定，训练更加容易，并且把真实样本引入到生成器的训练中，从而加快了GAN的收敛速度，另外加入了能够充分表征说话人的个性特征的i向量，充分学习语义特征和说话人的个性化特征，从而更好地提升转换后语音的个性相似度和语音质量。

4.

发明授权
基于DenseNet STARGAN的多对多说话人转换方法有权

公开(公告)号：CN111833855B

公开(公告)日：2024-02-23

申请号：CN202010179723.8

申请日：2020-03-16

Applicant: 南京邮电大学

Inventor： 李燕萍 , 袁昌龙 , 徐玲俐

IPC: G10L15/08 , G10L15/16 , G10L15/18 , G10L15/06

Abstract: 本发明公开了一种基于DenseNet STARGAN的多对多说话人转换方法，采用STARGAN与DenseNet相结合来实现语音转换系统，并将GELU激活函数引入STARGAN中。一方面利用DenseNet来解决训练过程中网络退化问题，有助于训练过程中梯度的反向传播，提升深层网络训练效率，另一方面，使用GELU激活函数替换掉常规使用的ReLU激活函数，具有更强的非线性表示能力，有效解决了ReLU在负区间处于失活状态的缺点，进一步缓解了训练过程中网络退化的问题，增强了STARGAN模型的表征能力，很好地改善了转换后语音的个性相似度和语音质量，实现了一种高质量的多说话人到多说话人的语音转换方法，在跨语种语音转换、电影配音、语音翻译等领域有良好的应用前景。

Patent Agency Ranking