一种语音识别纠错方法及相关设备

    公开(公告)号:CN119724160A

    公开(公告)日:2025-03-28

    申请号:CN202411737914.6

    申请日:2024-11-29

    Abstract: 本申请公开了一种语音识别纠错方法、装置、服务器、计算机可读存储介质以及计算机程序产品。该方法将大语言模型应用到语音识别纠错任务中,直接将声学模型生成帧级别的音素概率分布全部输入到经过预训练的大语言模型中,尽可能多的保留了有用信息,大语言模型根据前后帧的全局信息进行语音识别纠正,根据全局信息进行语音识别纠正,对于上下文理解更全面,在纠错任务中能够检测到更复杂的语法错误、逻辑错误和事实错误,从而提供了更全面、一致和连贯的结果。

    一种语音模型训练方法、装置、设备以及可读存储介质

    公开(公告)号:CN118098209A

    公开(公告)日:2024-05-28

    申请号:CN202311811435.X

    申请日:2023-12-26

    Abstract: 本申请提供了一种语音模型训练方法、装置、设备以及可读存储介质,该方法包括:接收来自第二网络设备的第一语音标签,为第二语音模型基于模拟语音数据输出的语音标签,第一语音标签中包括模拟语音数据中每个文字语音与其对应文字类别相似度信息;将模拟语音数据通过第一语音模型进行处理,得到第二语音标签,第二语音标签中包括模拟语音数据中每个文字语音与其对应文字类别相似度信息;根据第一语音标签和第二语音标签得到第一损失值;基于第一损失值调整第一语音模型的网络参数和/或网络结构;其中,第二语音模型是训练好的语音大模型,第一语音模型的网络规模比第二语音模型小。

    一种语音识别模型的生成方法和装置

    公开(公告)号:CN118865959A

    公开(公告)日:2024-10-29

    申请号:CN202411271949.5

    申请日:2024-09-11

    Abstract: 本公开实施例提供一种语音识别模型的生成方法和装置,涉及语音识别技术领域。该方法的具体实施方式包括:获取多个样本语音信号;提取各个样本语音信号中的第一样本语音特征和第二样本语音特征;分别将第一样本语音特征输入无监督模型、将样本第二语音特征输入帧级别对齐模型,得到样本语音信号的第一输出类别和第二输出类别,利用第一输出类别和第二输出类别构建发音词典;组合所述无监督模型、发音词典和语言模型,得到语音识别模型,使得解码器利用所述语音识别模型识别待识别语音。该实施方式既无需使用无监督模型的模型参数,也无需海量的标签数据,可以降低训练成本,能够兼顾无监督模型的泛化能力和鲁棒性、以及有监督模型的识别准确性,降低识别计算量、提高识别效率。

    模型训练方法、装置、存储介质及电子设备

    公开(公告)号:CN117174083A

    公开(公告)日:2023-12-05

    申请号:CN202311264566.0

    申请日:2023-09-27

    Abstract: 本发明提供一种模型训练方法、装置、存储介质及电子设备,该方法包括:获取训练数据和第一语音识别模型;对训练数据进行特征掩码,得到特征掩码后的训练数据;调用第一语音识别模型,对训练数据进行类别预测,得到训练数据中各个语音特征的参考类别标签;调用第一语音识别模型,对特征掩码后的训练数据进行类别预测,得到特征掩码后的训练数据中各个掩码特征的预测类别标签;采用各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异,计算模型损失值,并按照减小模型损失值的方向,优化第一语音识别模型中的模型参数,以确定第二语音识别模型。本发明实施例可降低模型训练的成本,并提高语音识别模型的准确率。

    一种语音识别方法及相关设备
    5.
    发明公开

    公开(公告)号:CN119649808A

    公开(公告)日:2025-03-18

    申请号:CN202411618697.9

    申请日:2024-11-13

    Abstract: 本申请公开了一种语音识别方法、装置、服务器、计算机可读存储介质以及计算机程序产品。该方法提出将大语言模型的建模单元统一到声学模型中,这样可以极大的缓解语音训练的数据中的词建模稀疏问题;另外,本方法将声学模型的输出直接输入到大语言模型中,这样减少了使用适应器映射的过程,让声学模型和语言模型的融合更加直接,可以极大的提升语音识别性能。使用本方法提供的将大语言模型应用于声学模型的方案,更加直接高效,同时可以加大的提升语音识别的性能。

    语音识别方法、装置、电子设备以及存储介质

    公开(公告)号:CN119600995A

    公开(公告)日:2025-03-11

    申请号:CN202411576253.3

    申请日:2024-11-06

    Abstract: 本公开提供了一种语音识别方法、装置、电子设备以及存储介质,涉及语音识别技术领域,该方法包括:获取至少一个样本语音和样本语音对应的标准语音文本;对样本语音进行语音特征提取,得到样本语音特征;将样本语音特征输入训练完成的声学模型,得到训练完成的声学模型输出的声学建模特征;将声学建模特征和标准语音文本输入大语言模型,得到大语言模型输出的预测概率分布和预测语音文本,预测概率分布用于指示样本语音对应预测词语的概率分布;基于预测概率分布、预测语音文本和标准语音文本,训练大语言模型,以使训练完成的大语言模型和训练完成的声学模型具备语音识别功能。该方法可以提高语音识别准确率。

    语音识别方法、装置、存储介质及电子设备

    公开(公告)号:CN119600994A

    公开(公告)日:2025-03-11

    申请号:CN202411575360.4

    申请日:2024-11-06

    Abstract: 本发明提供一种语音识别方法、装置、存储介质及电子设备,该方法包括:调用目标预训练模型,对目标语音数据进行特征提取,得到目标语音数据中每个目标语音帧的语音特征;基于每个目标语音帧的语音特征,对目标语音数据进行聚类处理,得到多个聚类语音特征,以确定至少一个文本识别结果;当目标语音数据满足流式音频数据识别条件时,基于多个聚类语音特征和至少一个文本识别结果,确定目标语音数据下的音频数据表示特征;调用目标注意力模型,基于目标语音数据下的音频数据表示特征,确定至少一个文本识别结果中每个文本识别结果的解码特征,从而确定目标语音数据的目标语音识别结果。本发明实施例可快速地对目标语音数据进行语音识别。

    一种语音情绪识别方法、装置、电子设备及存储介质

    公开(公告)号:CN119400208A

    公开(公告)日:2025-02-07

    申请号:CN202411461499.6

    申请日:2024-10-18

    Abstract: 本申请提供一种语音情绪识别方法、装置、电子设备及存储介质,涉及深度学习技术领域。在本申请中,在对目标对象的语音信号进行时间和空间上的特征提取获得第一语音特征后,便可通过语音情绪识别模型中的多尺度特征提取模块包括的至少两种不同尺寸大小的卷积核,分别对第一语音特征进行多尺度特征提取,获得多尺度语音特征,从而改善固定尺寸大小的卷积核难以捕捉不同情绪状态在时间维度上的不同变化的问题。并且,通过语音情绪识别模型中的全局特征感知模块,可以实现对多尺度语音特征进行跨通道维度的全局特征融合,即在时间维度的基础上增强了跨通道维度的特征融合。因此,采用本申请提供的语音情绪识别模型提高了语音情绪识别的准确度。

    语音识别方法、装置、存储介质及电子设备

    公开(公告)号:CN117275460A

    公开(公告)日:2023-12-22

    申请号:CN202311110435.7

    申请日:2023-08-30

    Abstract: 本发明提供一种语音识别方法、装置、存储介质及电子设备,该方法包括:对待识别语音数据包括的M个语音帧中各个语音帧的提取语音特征进行特征提取,得到各个语音帧的第一语音特征,以确定用于指示N个关键语音帧的关键帧数据;调用语音识别模型中的第二编码模块,对P个目标语音帧中每个目标语音帧的第一语音特征进行特征提取,得到每个目标语音帧的第二语音特征;第二编码模块包括自注意力机制,且自注意力机制用于对N个关键语音帧进行自注意力机制计算;采用每个目标语音帧的第二语音特征,分别计算每个目标语音帧的标签概率,以生成待识别语音数据的语音识别结果。本发明实施例可在保证语音识别性能的情况下,减少自注意力机制的计算量。

Patent Agency Ranking