语音识别方法、装置、电子设备及计算机可读介质

    公开(公告)号:CN115064173A

    公开(公告)日:2022-09-16

    申请号:CN202210891670.1

    申请日:2022-07-27

    Inventor: 白烨 王晓瑞

    Abstract: 本公开涉及一种语音识别方法、装置、电子设备及计算机可读介质,属于人工智能技术领域。该方法包括:获取待识别的语音特征序列,将语音特征序列输入语音识别系统中;通过语音识别系统中的编码器得到语音特征序列对应的语义特征向量序列,其中,语音识别系统的编码器中包含多组混合专家网络模块,不同组的混合专家网络模块中的神经网络参数的权重共享;通过语音识别系统中的解码器对语义特征向量序列进行解码处理,得到语音特征序列对应的文本序列。本公开通过将待识别的语音特征序列输入语音识别系统中,该语音识别系统的编码器中包含多组混合专家网络模块,不同组的混合专家网络模块权重共享,可以减少模型的参数量,节约系统资源。

    动作生成模型的训练方法、动作生成方法及装置

    公开(公告)号:CN116451773A

    公开(公告)日:2023-07-18

    申请号:CN202310434638.5

    申请日:2023-04-21

    Abstract: 本公开提供一种动作生成模型的训练方法、动作生成方法及装置,涉及计算机技术领域。该方法包括:获取第一音频样本、第一动作图像样本、第二音频样本和第二动作图像样本;利用第一音频样本训练音频编码器和音频量化器,得到训练完成的音频编码器和音频量化器;利用第一动作图像样本训练动作量化器和动作解码器,得到训练完成的动作量化器和动作解码器;利用第二音频样本和第二动作图像样本训练音频动作转换器,得到训练完成的音频动作转换器;依次连接训练完成的音频编码器、音频量化器、音频动作转换器、动作量化器和动作解码器,生成动作生成模型。该方法解决了相关技术中模型训练不充分以及泛化性能差的问题,提升模型的泛化性能。

    语音识别方法、装置、电子设备及计算机可读介质

    公开(公告)号:CN115064173B

    公开(公告)日:2022-12-09

    申请号:CN202210891670.1

    申请日:2022-07-27

    Inventor: 白烨 王晓瑞

    Abstract: 本公开涉及一种语音识别方法、装置、电子设备及计算机可读介质,属于人工智能技术领域。该方法包括:获取待识别的语音特征序列,将语音特征序列输入语音识别系统中;通过语音识别系统中的编码器得到语音特征序列对应的语义特征向量序列,其中,语音识别系统的编码器中包含多组混合专家网络模块,不同组的混合专家网络模块中的神经网络参数的权重共享;通过语音识别系统中的解码器对语义特征向量序列进行解码处理,得到语音特征序列对应的文本序列。本公开通过将待识别的语音特征序列输入语音识别系统中,该语音识别系统的编码器中包含多组混合专家网络模块,不同组的混合专家网络模块权重共享,可以减少模型的参数量,节约系统资源。

Patent Agency Ranking