-
公开(公告)号:CN118016081B
公开(公告)日:2024-06-21
申请号:CN202410423860.X
申请日:2024-04-10
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
Abstract: 本公开提供了基于语音质量分级模型的变速率语音编码方法及系统,涉及语音信号处理技术领域,包括:获取编码器不同误码率下得到的合成语音文件;将所述合成语音文件输入至语音质量分级模型中,得到语音质量的预测结果;对未来可能出现的语音质量的变化情况进行模态划分;其中,语音质量的变化情况包括三种模态,分别为平衡态、休眠态以及激活态;判断当前预测出的语音质量的所属模态,并根据当前所属模态,实时地对语音编码的速率进行自适应调整,在语音编码的自然度、可懂度和系统容量间得到最佳平衡。
-
公开(公告)号:CN115019833A
公开(公告)日:2022-09-06
申请号:CN202210852485.1
申请日:2022-07-20
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
Abstract: 本发明提供一种基于时频特征和全局注意力的语音情感识别方法及系统,涉及语音信号处理与模式识别技术领域,该方法通过提取三维对数梅尔谱图的时间特征和频率特征,并进行分析处理,以充分利用语音信号的静态特征和动态特征,以及静态特征和动态特征之间的通道联系,得到更深层次的特征联系,丰富了特征维度;并且,提取时间维度和空间(频率)维度数据,将其进行融合;利用空间特征提取模块和全局上下文注意力模块对时间‑频率特征进行分析,充分利用语音信号所包含的空间特征和时间特征,并对融合后的特征进行通道间的特征进行分析,其分析的特征更为全面,从而可以提高情感识别结果的准确率。
-
公开(公告)号:CN118335092A
公开(公告)日:2024-07-12
申请号:CN202410748437.7
申请日:2024-06-12
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
Abstract: 本发明属于语音信号处理技术领域,提供了一种基于多尺度残差注意力的语音压缩方法及系统,包括获取语音信号;对语音信号进行卷积操作,得到第一特征,对第一特征进行操作,得到第一特征的残差和恒等映射;将残差和恒等映射相加得到第一输出特征,对第一输出特征进行特征提取,经过多次操作得到注意力分数,将注意力分数分别与残差和恒等映射相乘,经过多次操作得到第三输出特征;对第三输出特征进行多级迭代量化,得到第一矢量,第二网络根据接收到的第一矢量的索引,在码本中找到相应的量化矢量,将所有量化矢量相加,得到重构矢量;对重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。本发明能够提高合成语音的质量。
-
公开(公告)号:CN118016081A
公开(公告)日:2024-05-10
申请号:CN202410423860.X
申请日:2024-04-10
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
Abstract: 本公开提供了基于语音质量分级模型的变速率语音编码方法及系统,涉及语音信号处理技术领域,包括:获取编码器不同误码率下得到的合成语音文件;将所述合成语音文件输入至语音质量分级模型中,得到语音质量的预测结果;对未来可能出现的语音质量的变化情况进行模态划分;其中,语音质量的变化情况包括三种模态,分别为平衡态、休眠态以及激活态;判断当前预测出的语音质量的所属模态,并根据当前所属模态,实时地对语音编码的速率进行自适应调整,在语音编码的自然度、可懂度和系统容量间得到最佳平衡。
-
公开(公告)号:CN115881164A
公开(公告)日:2023-03-31
申请号:CN202211490561.5
申请日:2022-11-25
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
Abstract: 本发明公开了一种语音情感识别方法、系统、电子设备及计算机可读存储介质,属于语音信号处理与模式识别技术领域。包括获取语音信号并进行预处理,对预处理后的语音信号进行声学特征提取,对提取到的声学特征数据进行标准化处理;将标准化处理后的声学特征数据输入训练好的语音情感识别模型进行处理并分类,获取语音情感识别结果;其中,语音情感识别模型包括长短期记忆网络、编码器、双向长短期记忆网络和SoftMax分类模块。能够避免在输入到神经网络中时丢失时间信息,充分提取和处理时序特征;解决了现有技术中存在“有较好的运用语音的情感声学特征,尤其是时间序列的特征,出现梯度消失和信息损失”的问题。
-
公开(公告)号:CN119360900B
公开(公告)日:2025-03-18
申请号:CN202411918160.4
申请日:2024-12-25
Applicant: 齐鲁工业大学(山东省科学院) , 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明属于语音信号处理技术领域,提供了面向低速率通信的非侵入式窄带语音质量评估方法及系统,其技术方案为基于语音数据对构建好的语音质量评估模型进行训练得到训练后的语音质量评估模型;其中,所述语音质量评估模型的构建过程包括:提取语音数据的梅尔频谱特征;基于梅尔频谱特征提取得到语音数据的非对称特征图;将语音数据的非对称特征图分割为多个频段,对各个频段的特征进行增强,得到增强后的特征图;基于增强后的特征图计算每帧语音的评分,基于每帧语音的评分计算整个语音数据的评分;基于训练后的语音质量评估模型对待评估语音数据进行质量评估,无需原始参考信号,有效评估实际通信环境中的语音质量。
-
公开(公告)号:CN119360900A
公开(公告)日:2025-01-24
申请号:CN202411918160.4
申请日:2024-12-25
Applicant: 齐鲁工业大学(山东省科学院) , 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明属于语音信号处理技术领域,提供了面向低速率通信的非侵入式窄带语音质量评估方法及系统,其技术方案为基于语音数据对构建好的语音质量评估模型进行训练得到训练后的语音质量评估模型;其中,所述语音质量评估模型的构建过程包括:提取语音数据的梅尔频谱特征;基于梅尔频谱特征提取得到语音数据的非对称特征图;将语音数据的非对称特征图分割为多个频段,对各个频段的特征进行增强,得到增强后的特征图;基于增强后的特征图计算每帧语音的评分,基于每帧语音的评分计算整个语音数据的评分;基于训练后的语音质量评估模型对待评估语音数据进行质量评估,无需原始参考信号,有效评估实际通信环境中的语音质量。
-
公开(公告)号:CN118335092B
公开(公告)日:2024-08-30
申请号:CN202410748437.7
申请日:2024-06-12
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
Abstract: 本发明属于语音信号处理技术领域,提供了一种基于多尺度残差注意力的语音压缩方法及系统,包括获取语音信号;对语音信号进行卷积操作,得到第一特征,对第一特征进行操作,得到第一特征的残差和恒等映射;将残差和恒等映射相加得到第一输出特征,对第一输出特征进行特征提取,经过多次操作得到注意力分数,将注意力分数分别与残差和恒等映射相乘,经过多次操作得到第三输出特征;对第三输出特征进行多级迭代量化,得到第一矢量,第二网络根据接收到的第一矢量的索引,在码本中找到相应的量化矢量,将所有量化矢量相加,得到重构矢量;对重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。本发明能够提高合成语音的质量。
-
公开(公告)号:CN116884441A
公开(公告)日:2023-10-13
申请号:CN202310911528.3
申请日:2023-07-24
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
Abstract: 本发明提供了一种基于时频特征双重融合的语音情感识别方法及系统,涉及语音情感识别领域,包括:获取待识别的语音信号并进行预处理,得到语音信号的梅尔频率倒谱系数;提取梅尔频率倒谱系数的深度时间特征和深度频率特征;将深度时间特征和深度频率特征进行自适应融合和全局融合,得到时频特征;对得到的时频特征进行再整形,馈入全连接网络中进行分类,根据分类结果确定语音信号对应的情感。本发明能够充分利用语音信号所包含的情感信息特征,提高语音情感识别的准确率。
-
公开(公告)号:CN115019833B
公开(公告)日:2024-09-17
申请号:CN202210852485.1
申请日:2022-07-20
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
Abstract: 本发明提供一种基于时频特征和全局注意力的语音情感识别方法及系统,涉及语音信号处理与模式识别技术领域,该方法通过提取三维对数梅尔谱图的时间特征和频率特征,并进行分析处理,以充分利用语音信号的静态特征和动态特征,以及静态特征和动态特征之间的通道联系,得到更深层次的特征联系,丰富了特征维度;并且,提取时间维度和空间(频率)维度数据,将其进行融合;利用空间特征提取模块和全局上下文注意力模块对时间‑频率特征进行分析,充分利用语音信号所包含的空间特征和时间特征,并对融合后的特征进行通道间的特征进行分析,其分析的特征更为全面,从而可以提高情感识别结果的准确率。
-
-
-
-
-
-
-
-
-