基于残差网络带二维注意力和语义增强的说话人识别方法

    公开(公告)号:CN117935816A

    公开(公告)日:2024-04-26

    申请号:CN202410098931.3

    申请日:2024-01-24

    Abstract: 本发明涉及基于残差网络带二维注意力和语义增强的说话人识别方法。该方法包括以下步骤:S1:将接收语音信号的梅尔频谱图作为模型的输入;S2:将输入的语音信号的梅尔频谱图经过第一特征提取层和四个第二特征提取层,所述第一特征提取层与四个第二特征提取层串联起来进行特征提取;S3:融合多个层级特征,同时利用网络浅层和深层的信息;S4:将融合后的特征输入基于注意力机制的统计池化层和全连接层,生成说话人特征嵌入;S5:在说话人特征嵌入空间中执行有意义的语义扰动,实现特征级别的数据增强。本发明对嵌入进行有意义的语义方向增强和对数据的多维特征关联计算;扩充样本量和提高特征捕获能力,进而改善模型的性能。

Patent Agency Ranking