一种基于分层结构Transformer的高效音频分类方法

    公开(公告)号:CN118824281A

    公开(公告)日:2024-10-22

    申请号:CN202410799719.X

    申请日:2024-06-20

    Inventor: 卢佳怡 刘宏清

    Abstract: 本发明涉及音频数据处理领域,具体涉及一种基于分层结构Transformer的高效音频分类方法,包括通过多尺度混合时频掩码方法处理梅尔频谱图数据得到增强梅尔频谱图数据;构建音频分类教师模型,采用增强梅尔频谱图数据训练音频分类教师模型;基于ResNet网络构建轻量级音频分类学生模型;根据增强梅尔频谱图数据和音频分类教师模型,对轻量级音频分类学生模型进行引导训练;采用训练好的轻量级音频分类学生模型进行音频分类预测;本发明降低了计算复杂度,减轻服务器运算压力。

Patent Agency Ranking