演奏乐曲的评分方法、装置、电子设备、存储介质及计算机程序产品

    公开(公告)号:CN118800204A

    公开(公告)日:2024-10-18

    申请号:CN202410232862.0

    申请日:2024-02-29

    Abstract: 本申请公开了一种演奏乐曲的评分方法、装置、电子设备、存储介质及计算机程序产品,方法包括:调用卷积循环神经网络对基于第一乐谱演奏的第一音频信号的对数梅尔谱特征进行处理,得到第一序列,所述第一序列表征基于所述第一音频信号确定出的每个音符对应的一个或多个第一特征的预测值;再调用Transformer网络对基于第一乐谱生成的乐MIDI序列的第二序列进行处理,得到第三序列;所述第三序列表征基于第一乐谱生成的MIDI序列的一个或多个第一特征的后验概率特征序列;将第一序列与第三序列进行对齐处理,得到在特征空间上与基于第一乐谱生成的MIDI序列对齐的第五序列,然后基于第五序列中的一个或多个第一特征的特征值,得到第一音频信号的评分。

    一种语音合成方法、设备及介质
    5.
    发明公开

    公开(公告)号:CN116913244A

    公开(公告)日:2023-10-20

    申请号:CN202310192642.5

    申请日:2023-02-24

    Abstract: 本发明提供一种语音合成方法、设备及介质,涉及人工智能领域,其中,所述语音合成方法包括:获取待合成的音素信息;利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息;根据所述第一梅尔频谱信息,合成目标语音。在语音合成过程中,具体采用非自回归声学模型对音素信息进行处理,获取对应的梅尔谱,能够充分利用处理器的并行能力,进而可以加快合成速度,且减少错误累积和错误传递,即在提高语音合成速度的同时提高语音合成的鲁棒性。

    说话人日志模型训练、说话人日志处理方法、装置及设备

    公开(公告)号:CN118800242A

    公开(公告)日:2024-10-18

    申请号:CN202311549209.9

    申请日:2023-11-20

    Abstract: 本公开提供了一种说话人日志模型训练、说话人日志处理方法、装置及设备,包括:获取目标音频,并通过待训练的说话人日志模型提取目标音频的音频特征;通过待训练的说话人日志模型对音频特征进行音频估计,得到目标音频的音频估计结果;根据音频特征和音频估计结果,确定目标音频的错误估计结果;基于错误估计结果和音频估计结果,对待训练的说话人日志模型进行训练,得到训练后说话人日志模型。不仅提供了音频的特征分析和音频中说话人的分类,还根据错误估计结果对待训练的说话人日志模型进行训练,使得训练后说话人日志模型预测的结果能够更准确。

    无参考说话人日志系统评价方法、装置及设备

    公开(公告)号:CN116978405A

    公开(公告)日:2023-10-31

    申请号:CN202211405269.9

    申请日:2022-11-10

    Abstract: 本申请实施例提供一种无参考说话人日志系统评价方法、装置及设备,该装置包括:错误拒绝与接受模块,用于根据待测样本的帧级别的语音特征和帧级别的序列标签,获得错误接受与拒绝率;混淆模块,用于根据待测样本的帧级别的语音特征和帧级别的序列标签,获得说话人混淆的语音帧率;边界清晰度模块,用于根据待测样本的帧级别的语音特征和帧级别的序列标签,获得说话人轮换边界的清晰度;神经网络模型,用于根据所述错误接受与拒绝率、说话人混淆的语音帧率、说话人轮换边界的清晰度,获取待测样本的评价分数,所述评价分数用于表示说话人日志系统分割性能。

    一种语音识别方法和装置、及存储介质

    公开(公告)号:CN116913247A

    公开(公告)日:2023-10-20

    申请号:CN202211466722.7

    申请日:2022-11-22

    Abstract: 本申请实施例提供了一种语音识别方法,该方法包括:获取待识别语音数据;其中,待识别语音数据为包括至少一种方言的语音数据;确定待识别语音数据对应的语音声学特征和方言嵌入特征;将语音声学特征和方言嵌入特征输入至编码网络,获取待识别语音数据对应的特征序列;其中,编码网络包括至少一层编码器,至少一层编码器均包括门控网络,共享专家网络以及多个私有专家网络;根据特征序列生成待识别语音数据对应的识别结果,通过编码网络中的门控网络输出的权重值动态选择相对应的私有专家网络对待识别语音数据对应的声学编码特征进行处理,且同时通过共享专家网络可以建模不同方言间的共性特征,以此来提升语音识别的准确率。

    用于语音识别的模型训练及应用方法、设备和存储介质

    公开(公告)号:CN118800220A

    公开(公告)日:2024-10-18

    申请号:CN202311641006.2

    申请日:2023-12-01

    Abstract: 本申请公开了一种用于语音识别的模型训练及应用方法、设备和存储介质。该方法包括:获取训练样本集,所述训练样本集包括多组训练样本,每组所述训练样本包括成对的语音数据和文本数据,所述文本数据与所述语音数据的内容相同;针对各组所述训练样本,对每组所述训练样本中所述语音数据的语音嵌入特征和所述文本数据的文本语义特征进行特征融合,获得各组所述训练样本的融合特征;基于各组所述训练样本的融合特征和对应的所述文本数据,确定语音识别模型的各损失值;基于各所述损失值和设定的损失函数的目标值,对语音识别模型的参数进行调整,直至获得训练好的语音识别模型。采用本申请的方法,可以提高语音识别的准确性。

Patent Agency Ranking