语音识别模型的训练方法及装置、语音识别方法及装置

    公开(公告)号:CN115064157A

    公开(公告)日:2022-09-16

    申请号:CN202210863212.7

    申请日:2022-07-21

    Inventor: 曲贺 李杰

    Abstract: 本公开关于一种语音识别模型的训练方法及装置、语音识别方法及装置。语音识别模型的训练方法包括:获取训练样本,其中,训练样本包括语音样本和与语音样本对应的标注文本,标注文本包括与语音样本对应的目标文本信息和目标语种信息;将语音样本输入到待训练的语音识别模型中,得到语音样本的预测识别结果,其中,预测识别结果包括与语音样本对应的预测文本信息和预测语种信息;基于预测识别结果和标注文本,对语音识别模型进行训练,得到训练完成的语音识别模型。

    多媒体内容展示方法、装置、电子设备及存储介质

    公开(公告)号:CN117075772A

    公开(公告)日:2023-11-17

    申请号:CN202311126243.5

    申请日:2023-09-01

    Inventor: 张颖 李轩 曲贺

    Abstract: 本公开实施例提供一种多媒体内容展示方法、装置、电子设备及存储介质,涉及计算机技术领域。该方法包括:在针对多媒体内容的干声音频录制完成后,显示多媒体编辑页面,多媒体编辑页面包括音频匹配控件;响应于针对音频匹配控件的触发操作,获得与所述干声音频匹配的混合音频,并显示音频展示页面,混合音频是根据多个声音对象针对多媒体内容生成的多个音频混合而成的,所述音频展示页面包括播放控件;响应于针对所述播放控件的触发操作,对至少部分多媒体内容对应的干声音频和所述至少部分多媒体内容对应的混合音频进行叠加播放。该方法实现了直观地播放干声音频和合唱音频叠加之后的效果,丰富了多媒体内容的音频展示形式,提高了人机交互效率。

    语音处理方法、装置、电子设备及存储介质

    公开(公告)号:CN111710332B

    公开(公告)日:2023-07-07

    申请号:CN202010612566.5

    申请日:2020-06-30

    Inventor: 曲贺 王晓瑞 李岩

    Abstract: 本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:获取待识别语音,对待识别语音进行分帧处理,得到多个待检测音帧;提取每个待检测音帧分别对应的语音特征;对每个语音特征进行识别,得到每个待检测音帧的检测结果;根据检测结果,对待识别语音进行切分,得到多个目标语音片段,其中,每个目标语音片段的长度小于或者等于第一阈值,且相邻的目标语音片段的长度之和大于或等于第二阈值。通过该方法得到的每个目标语音片段的长度在指定的长度范围之内,可以提高目标语音片段的语音识别效率;同时,由于相邻目标语音片段的长度之和大于或等于第二阈值,使得目标语音片段具有一定的上下文信息,从而可以提高语音识别的准确率。

    语音处理方法、装置、电子设备及存储介质

    公开(公告)号:CN111710332A

    公开(公告)日:2020-09-25

    申请号:CN202010612566.5

    申请日:2020-06-30

    Inventor: 曲贺 王晓瑞 李岩

    Abstract: 本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:获取待识别语音,对待识别语音进行分帧处理,得到多个待检测音帧;提取每个待检测音帧分别对应的语音特征;对每个语音特征进行识别,得到每个待检测音帧的检测结果;根据检测结果,对待识别语音进行切分,得到多个目标语音片段,其中,每个目标语音片段的长度小于或者等于第一阈值,且相邻的目标语音片段的长度之和大于或等于第二阈值。通过该方法得到的每个目标语音片段的长度在指定的长度范围之内,可以提高目标语音片段的语音识别效率;同时,由于相邻目标语音片段的长度之和大于或等于第二阈值,使得目标语音片段具有一定的上下文信息,从而可以提高语音识别的准确率。

    语音识别方法、装置、电子设备及存储介质

    公开(公告)号:CN110211593A

    公开(公告)日:2019-09-06

    申请号:CN201910477949.3

    申请日:2019-06-03

    Inventor: 曲贺 李岩

    Abstract: 本公开是关于一种语音识别方法、装置、电子设备及存储介质,涉及深度学习技术领域,包括:获取待识别语音信号;将待识别语音信号输入至第一语音识别模型中,第一语音识别模型包括多个网络层,多个网络层中的至少一个第一网络层的权重数据为量化后的整型数据矩阵,多个网络层中的至少一个第二网络层的偏置数据为量化后的整型数据矩阵;通过第一语音识别模型中的每个网络层的权重数据和型偏置数据对待识别语音信号进行识别,得到语音识别结果。根据量化后的整型权重数据和整型偏置数据对待识别语音信号进行计算,进而识别该待识别语音信号,避免了通过浮点型数据进行计算,提高了语音识别时的运算速度,提高了语音识别的效率。

    语音识别方法、装置及存储介质

    公开(公告)号:CN110047468A

    公开(公告)日:2019-07-23

    申请号:CN201910418620.X

    申请日:2019-05-20

    Inventor: 曲贺 王晓瑞 李岩

    Abstract: 本公开是关于一种语音识别方法、装置及存储介质,属于机器学习技术领域。方法包括:获取待识别的音频帧;分别提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量;对梅尔标度滤波器组特征和发声用户信息矢量进行融合处理,得到融合特征;基于目标声学模型对融合特征进行处理,得到音频帧的语音识别结果,目标声学模型包括多个空洞卷积层。本公开会同时提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量,之后,将二者进行特征融合并将融合后的特征输入声学模型,由于融合后的特征能够对说话人特征和信道特征进行有效表达,提高了语音识别的准确率;另外,声学模型中包括多个空洞卷积层,可以在相同感受野下减少计算量,加快了语音识别速度。

    语音表征模型预训练方法、装置、电子设备及存储介质

    公开(公告)号:CN118737129A

    公开(公告)日:2024-10-01

    申请号:CN202410947093.2

    申请日:2024-07-15

    Inventor: 易澄 曲贺

    Abstract: 本公开关于语音表征模型预训练方法、装置、电子设备及存储介质,该方法包括:随机初始化映射矩阵和码本集合,基于映射矩阵对样本语音的音频帧序列中各音频帧分别进行向量映射处理得到各音频帧的映射向量;从码本集合中搜索与各映射向量相匹配的目标码本向量并将其目标索引作为相应音频帧的参考离散化标签;将经遮蔽的音频帧序列输入待训练语音表征模型进行语音表征处理得到语音表征结果;对语音表征结果中对应各被遮蔽位置的表征结果分别进行离散化标签预测;基于各被遮蔽位置对应的预测离散化标签与相应参考离散化标签之间的差异,调整待训练语音表征模型的模型参数以得到预训练的语音表征模型。本公开提高了语音表征模型的预训练速度和稳定性。

    语音识别方法、装置、电子设备及存储介质

    公开(公告)号:CN110211593B

    公开(公告)日:2021-10-22

    申请号:CN201910477949.3

    申请日:2019-06-03

    Inventor: 曲贺 李岩

    Abstract: 本公开是关于一种语音识别方法、装置、电子设备及存储介质,涉及深度学习技术领域,包括:获取待识别语音信号;将待识别语音信号输入至第一语音识别模型中,第一语音识别模型包括多个网络层,多个网络层中的至少一个第一网络层的权重数据为量化后的整型数据矩阵,多个网络层中的至少一个第二网络层的偏置数据为量化后的整型数据矩阵;通过第一语音识别模型中的每个网络层的权重数据和型偏置数据对待识别语音信号进行识别,得到语音识别结果。根据量化后的整型权重数据和整型偏置数据对待识别语音信号进行计算,进而识别该待识别语音信号,避免了通过浮点型数据进行计算,提高了语音识别时的运算速度,提高了语音识别的效率。

Patent Agency Ranking