-
公开(公告)号:CN120048270A
公开(公告)日:2025-05-27
申请号:CN202510193427.6
申请日:2025-02-21
Applicant: 北京邮电大学
IPC: G10L19/018 , G10L13/02 , G10L25/30 , G06N3/0464 , G06N3/048
Abstract: 本发明公开一种基于VITS的文本到语音合成模型水印方法。该方法首先在VITS模型的语音编码阶段加入矢量量化模块,将编码后的连续隐变量量化为离散数据。然后使用水印编码器将水印信息嵌入到隐变量中,作为解码器的输入生成带有水印的合成语音。在水印提取阶段,采用基于ResNet和时序注意力机制的水印提取器准确恢复水印信息。此外,该方法的设计还包括攻击模拟模块,以提高水印的鲁棒性,通过实验分析对比,本发明的模型在音频质量、语音可懂度和水印提取精度方面均表现良好。本发明适用于信息安全领域,结合深度学习和内生水印技术,能够有效解决语音合成中的版权保护和溯源问题,确保语音数据在各种环境中的安全性和可追溯性,应用前景广泛。