-
公开(公告)号:CN120032624A
公开(公告)日:2025-05-23
申请号:CN202510050312.1
申请日:2025-01-13
Applicant: 北京印刷学院
Abstract: 基于VITS的特征融合语音合成方法及装置,能够提高语音的表现力和自然性,生成更加自然、流畅且富有表现力的高质量语音,尤其在多语言、多情感表达和复杂语境的语音合成中表现尤为突出。方法包括:(1)根据输入的文本信息,生成与之相匹配的韵律特征;(2)建立基于Transformer的深度学习模型;(3)采用多模态特征融合方法,将韵律特征和文本特征进行综合处理;(4)综合特征向量被输入到基于变分自编码器的语音合成网络中进行处理,语音合成网络采用生成对抗网络和基于最大似然的训练方法进行训练;(5)采用随机时长预测器的神经网络模型,通过一个多层的归一化流结构进行输入数据的变换。