用于语音识别中的自监督学习的高级聚类

    公开(公告)号:CN117795593A

    公开(公告)日:2024-03-29

    申请号:CN202280053345.6

    申请日:2022-03-24

    Abstract: 提供了用于通过以下中的至少一者来生成伪标记训练数据集的系统和方法:(1)基于将自动语音识别模型应用于未标记语音数据集,从自动语音识别模型提取中间输出集合,将中间输出集合聚类成不同聚类,以及生成包括与不同聚类相关联并且与未标记语音数据相对应的聚类分配的第一伪标记集,或者(2)通过将自动语音识别模型应用于未标记语音数据集来为未标记语音数据生成经解码单词序列集,以及通过将自动语音识别模型应用于(i)经解码单词序列集和(ii)未标记语音数据集这两者,来生成与未标记语音数据相关联的第二伪标记集。

    流式长格式语音识别
    2.
    发明公开

    公开(公告)号:CN118355434A

    公开(公告)日:2024-07-16

    申请号:CN202280080208.1

    申请日:2022-10-19

    Abstract: 提供了用于访问因子化神经换能器的系统和方法,该因子化神经换能器包括用于预测空白令牌的第一层集和用于预测词汇令牌的第二层集。第一层集包括空白预测器、编码器和联合网络,并且第二层集包括词汇预测器,词汇预测器是与空白预测器分离的预测器。上下文编码器被添加到因子化神经换能器,其编码长格式转录历史以生成长格式上下文嵌入,使得该因子化神经换能器被进一步配置成至少部分地通过使用该长格式上下文嵌入来执行长格式自动语音识别以增强对词汇令牌的预测。

Patent Agency Ranking