基于平衡信噪比感知的文本到音频生成蒸馏方法

    公开(公告)号:CN119724152A

    公开(公告)日:2025-03-28

    申请号:CN202411925962.8

    申请日:2024-12-25

    Inventor: 周翊 刘炳志 赵宇

    Abstract: 本发明属于音频生成与处理领域,涉及基于平衡信噪比感知的文本到音频生成蒸馏方法,包括:获取文本并输入训练好的学生模型,得到音频;学生模型的训练过程包括:根据教师模型初始化学生模型;根据文本和音频数据得到文本特征τ和音频特征z0;将特征τ、z0输入教师模型,将教师模型的输出和特征τ输入学生模型;根据教师模型和学生模型的输出计算BSA损失函数值更新学生模型的参数,当学生模型达到预设的训练次数时,若达到最大蒸馏次数,得到训练好的学生模型;否则根据学生模型设置教师模型的参数并进行下一次蒸馏;本发明结合BSA损失函数,优化了教师模型与学生模型之间的知识传递,使得蒸馏过程在不同信噪比条件下均能保持较高的稳定性和准确性。

Patent Agency Ranking