用于语音识别中的自监督学习的高级聚类

    公开(公告)号:CN117795593A

    公开(公告)日:2024-03-29

    申请号:CN202280053345.6

    申请日:2022-03-24

    Abstract: 提供了用于通过以下中的至少一者来生成伪标记训练数据集的系统和方法:(1)基于将自动语音识别模型应用于未标记语音数据集,从自动语音识别模型提取中间输出集合,将中间输出集合聚类成不同聚类,以及生成包括与不同聚类相关联并且与未标记语音数据相对应的聚类分配的第一伪标记集,或者(2)通过将自动语音识别模型应用于未标记语音数据集来为未标记语音数据生成经解码单词序列集,以及通过将自动语音识别模型应用于(i)经解码单词序列集和(ii)未标记语音数据集这两者,来生成与未标记语音数据相关联的第二伪标记集。

Patent Agency Ranking