一种中文口音识别方法、装置、设备及介质

    公开(公告)号:CN117475999A

    公开(公告)日:2024-01-30

    申请号:CN202311434355.7

    申请日:2023-10-31

    Applicant: 华侨大学

    Abstract: 本发明提供了一种中文口音识别方法、装置、设备及介质,涉及口音识别技术领域,能够识别非母语人群的口音。首先,语音信号输入Wave2vec2.0预训练模型抽取编码器的深层隐藏层进行拼接,得到层次化聚合向量。然后,将层次化聚合向量输入到注意力统计池化网络,根据注意力权重计算统计特征均值和统计特征方差,两者拼接得到紧凑的聚合口音特征。最后,聚合口音特征输入到LSTM网络中学习语音序列的长期依赖关系,获得口音依赖特征,将口音依赖特征输入全连接分类器实现口音分类。利用语音预训练模型提取更高层次的语义信息,并利用注意力统计池化捕捉语音特征在时间上的变化和分布,有效地提取口音特征并增强口音特征的判别性。

Patent Agency Ranking