-
公开(公告)号:CN116110403A
公开(公告)日:2023-05-12
申请号:CN202310055469.4
申请日:2023-01-17
Applicant: 厦门大学
Abstract: 本申请提出一种声纹识别模型生成方法,其包括:S1,对无标注的第一音频数据集U进行初始伪标签标注;S2,将U中的每条音频数据切段为时长相同的多段音频数据;继承切段前的伪标签标注,生成第二音频数据集S3,将送入声纹识别模型,并引入标签纠正策略训练声纹识别模型,获得标签纠正的第三音频数据集S4,将送入声纹识别模型进行训练;S5,提取声纹识别模型的表征向量并送入聚类模块,生成标签更新的第二音频数据集重复执行S3‑S5直至完成指定的训练轮次。上述方法利用纠正策略提升伪标签的准确率,缓解错误的伪标签对训练的影响;同时,基于语音预训练模型的子结构(Sub‑PTM)构建表征学习模块,进一步提高模型的声纹识别性能。