-
公开(公告)号:CN116072125A
公开(公告)日:2023-05-05
申请号:CN202310364542.6
申请日:2023-04-07
Applicant: 成都信息工程大学
IPC: G10L17/04 , G10L21/0208
Abstract: 本发明提供了一种噪声环境下的自监督说话人识别模型构建方法及系统,方法包括如下步骤:S1.截取一段语音;S2.输入到卷积滤波层,得到特征图;S3.输入到注意力机制模块和残差模块;S4.将S3的结果输入到注意力机制模块和残差模块;S5.提取得到声学特征;S6.使用对比学习方法训练双编码器;S7.将声学特征输入到双编码器,得到特征向量;S8.对所有原始语音提取特征向量后做聚类产生伪标签;S9.通过伪标签对双编码器进行监督训练;S10.重复执行S7~S9,直至等错误率不再降低,完成模型构建。本发明可以有效抑制存在于声学特征通道和空间中的噪声信息,并减少噪声标签对自监督说话人识别准确率的影响。
-
公开(公告)号:CN116072125B
公开(公告)日:2023-10-17
申请号:CN202310364542.6
申请日:2023-04-07
Applicant: 成都信息工程大学
IPC: G10L17/04 , G10L21/0208
Abstract: 本发明提供了一种噪声环境下的自监督说话人识别模型构建方法及系统,方法包括如下步骤:S1.截取一段语音;S2.输入到卷积滤波层,得到特征图;S3.输入到注意力机制模块和残差模块;S4.将S3的结果输入到注意力机制模块和残差模块;S5.提取得到声学特征;S6.使用对比学习方法训练双编码器;S7.将声学特征输入到双编码器,得到特征向量;S8.对所有原始语音提取特征向量后做聚类产生伪标签;S9.通过伪标签对双编码器进行监督训练;S10.重复执行S7~S9,直至等错误率不再降低,完成模型构建。本发明可以有效抑制存在于声学特征通道和空间中的噪声信息,并减少噪声标签对自监督说话人识别准确率的影响。
-