一种模型训练方法、装置、设备及存储介质

    公开(公告)号:CN115620706B

    公开(公告)日:2023-03-10

    申请号:CN202211385690.8

    申请日:2022-11-07

    Abstract: 本说明书公开了一种模型训练方法、装置、设备及存储介质,可以从识别模型的特征提取层提取出的目标语音特征中,提取出包含有幅度信息和相位信息的第一语音特征和第二语音特征,从而可以通过多任务学习,基于第一语音特征和第二语音特征对识别模型进行训练,进而可以使识别模型能够有效地根据语音数据中包含的幅度信息和相位信息,进行情感识别,以提升识别出的情感的准确率。

    基于三维深度特征融合的语音情感识别方法及系统

    公开(公告)号:CN114566189A

    公开(公告)日:2022-05-31

    申请号:CN202210454745.X

    申请日:2022-04-28

    Abstract: 本发明属于人工智能领域,涉及基于三维深度特征融合的语音情感识别方法及系统,该方法包括:步骤一,采集开源数据集得到预训练的识别网络模型和经过去噪处理的干净情感语音音频;步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。本发明有效解决低资源训练模型导致的语音情感识别准确率低的问题。

    一种音频生成的方法、存储介质及电子设备

    公开(公告)号:CN115910002B

    公开(公告)日:2023-05-16

    申请号:CN202310017843.1

    申请日:2023-01-06

    Abstract: 本说明书公开了一种音频生成的方法、存储介质及电子设备,其中,可以获取实际音频以及该实际音频的相关信息;将该实际音频对应的歌词信息与音乐风格信息输入到歌谱生成模型中,得到歌谱预测结果,并以最小化该歌谱预测结果与该歌谱信息之间的差异为优化目标,对该歌谱预测模型进行训练。还可以将歌谱信息、歌词信息以及音乐风格信息输入到音频生成模型中,以使音频生成模型预测实际音频的音频频谱特征,并根据该音频频谱特征生成目标音频,并以最小化目标音频与实际音频之间的差异为优化目标,对音频生成模型进行训练,训练后的歌谱预测模型与训练后的音频生成模型可以共同用于通过用户的输入生成音频,从而提高了音乐生成的效果。

    一种模型训练方法、装置、设备及存储介质

    公开(公告)号:CN115620706A

    公开(公告)日:2023-01-17

    申请号:CN202211385690.8

    申请日:2022-11-07

    Abstract: 本说明书公开了一种模型训练方法、装置、设备及存储介质,可以从识别模型的特征提取层提取出的目标语音特征中,提取出包含有幅度信息和相位信息的第一语音特征和第二语音特征,从而可以通过多任务学习,基于第一语音特征和第二语音特征对识别模型进行训练,进而可以使识别模型能够有效地根据语音数据中包含的幅度信息和相位信息,进行情感识别,以提升识别出的情感的准确率。

    一种模型训练和业务执行的方法、装置、介质及设备

    公开(公告)号:CN115456114A

    公开(公告)日:2022-12-09

    申请号:CN202211376381.4

    申请日:2022-11-04

    Abstract: 本说明书公开了一种模型训练和业务执行的方法、装置、介质及设备。该模型训练的方法包括:获取用户在历史上的语音对话数据并输入待训练的识别模型,通过识别模型的特征提取层,确定语音对话数据对应的数据特征,以及确定所述语音对话数据对应的情感强度,作为预测情感强度,和语音对话数据对应的情感类别,作为预测情感类别,根据预测情感强度和语音对话数据对应的实际情感强度之间的偏差,以及预测情感类别和语音对话数据对应的实际情感类别之间的偏差,确定识别模型的综合损失值,以最小化该综合损失值为优化目标,对识别模型进行训练。

    基于三维深度特征融合的语音情感识别方法及系统

    公开(公告)号:CN114566189B

    公开(公告)日:2022-10-04

    申请号:CN202210454745.X

    申请日:2022-04-28

    Abstract: 本发明属于人工智能领域,涉及基于三维深度特征融合的语音情感识别方法及系统,该方法包括:步骤一,采集开源数据集得到预训练的识别网络模型和经过去噪处理的干净情感语音音频;步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。本发明有效解决低资源训练模型导致的语音情感识别准确率低的问题。

    基于广义最大非对称相关熵准则的自适应滤波方法和系统

    公开(公告)号:CN114614797B

    公开(公告)日:2022-09-30

    申请号:CN202210512057.4

    申请日:2022-05-12

    Inventor: 李太豪 岳鹏程

    Abstract: 本发明公开一种基于广义最大非对称相关熵准则的自适应滤波方法和系统,该方法包括:步骤一:基于自回归模型对输入的时间序列信号进行建模,输入信号经过滤波器得到输出信号,作为在本时刻信号的预测值,再根据预测值得到自回归模型的预测误差;步骤二:根据自回归模型的预测误差,并基于广义最大非对称相关熵准则构建目标函数,计算预测误差对应的损失;步骤三:根据预测误差损失,采用梯度下降法得到滤波器参数更新的表达式,实时更新滤波器参数;步骤四:分析自适应滤波器在非对称非高斯噪声下的鲁棒性;步骤五:对自适应滤波器进行稳态性能分析并验证。本发明能够有效提高自适应滤波器在非高斯噪声下的鲁棒性、性能以及适应能力。

    基于广义最大非对称相关熵准则的自适应滤波方法和系统

    公开(公告)号:CN114614797A

    公开(公告)日:2022-06-10

    申请号:CN202210512057.4

    申请日:2022-05-12

    Inventor: 李太豪 岳鹏程

    Abstract: 本发明公开一种基于广义最大非对称相关熵准则的自适应滤波方法和系统,该方法包括:步骤一:基于自回归模型对输入的时间序列信号进行建模,输入信号经过滤波器得到输出信号,作为在本时刻信号的预测值,再根据预测值得到自回归模型的预测误差;步骤二:根据自回归模型的预测误差,并基于广义最大非对称相关熵准则构建目标函数,计算预测误差对应的损失;步骤三:根据预测误差损失,采用梯度下降法得到滤波器参数更新的表达式,实时更新滤波器参数;步骤四:分析自适应滤波器在非对称非高斯噪声下的鲁棒性;步骤五:对自适应滤波器进行稳态性能分析并验证。本发明能够有效提高自适应滤波器在非高斯噪声下的鲁棒性、性能以及适应能力。

Patent Agency Ranking