-
公开(公告)号:CN113409827A
公开(公告)日:2021-09-17
申请号:CN202110673028.1
申请日:2021-06-17
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G10L25/87 , G10L25/30 , G10L25/18 , G06N3/08 , G06N3/04 , G06K9/62 , G06K9/46 , G06K9/00 , G06F16/583 , G06F16/51
Abstract: 本发明属于语音信号处理领域,提供了一种基于局部卷积块注意力网络的语音端点检测方法及系统。该方法包括,获取语音数据的声谱图数据;利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧,得到帧级的局部声谱图数据;将局部声谱图数据输入局部卷积块注意力网络中,经过卷积模块进行特征提取,在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作,得到增强的数据;将增强的数据输入分类器中,进行语音/非语音帧检测,得到预测结果。
-
公开(公告)号:CN113096673A
公开(公告)日:2021-07-09
申请号:CN202110341574.5
申请日:2021-03-30
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明属于语音处理领域,提供了一种基于生成对抗网络的语音处理方法及系统。其中,该方法包括获取源语音,并输入至编码器对源语音进行编码;将编码后的语音信号输入至生成对抗网络模型,最后输出与源语音相匹配的恢复的语音;其中,生成对抗网络模型包括生成器和鉴别器,训练集由编码前的源语音和编码后质量下降的语音构成;生成器用于恢复编码后质量下降的语音;鉴别器用于比对恢复后的语音与编码前的源语音以区分真信号与假信号,再由鉴别器将区分结果反馈给生成器,以指导生成器学习源语音的真实分布的输出。解决了语音编码器生成的语音质量较低的问题,并且具有更高的泛化性,对多种ITU标准下的编码器生成的编解码后的语音都有效。
-
公开(公告)号:CN118447880A
公开(公告)日:2024-08-06
申请号:CN202410640457.2
申请日:2024-05-22
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
Abstract: 本发明提供了一种基于多特征注意力融合的语音情感识别方法及系统,包括:基于获取的待识别语音信号,通过预处理获得语音信号的语谱图和梅尔频率倒谱系数;基于所述语谱图,通过时频特征提取获得语谱图特征;基于所述梅尔频率倒谱系数,利用预先训练的神经网络模型进行特征提取,获得梅尔频率倒谱系数特征;基于待识别语音信号,利用自动语音识别的预训练模型进行特征提取,获得W2E特征;分别将语谱图特征和W2E特征以及梅尔频率倒谱系数特征和W2E特征进行特征融合,获得第一融合特征和第二融合特征;基于所述第一融合特征和第二融合特征,通过全局融合获得最终的融合特征;基于获得的融合特征,利用预先训练的情感分类器,获得情感分类结果。
-
公开(公告)号:CN117934914A
公开(公告)日:2024-04-26
申请号:CN202311830648.7
申请日:2023-12-27
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06V10/764 , G06V10/82 , G06N3/0475 , G06N3/094 , G06N3/084 , G06N3/09 , G06N3/096
Abstract: 本发明公开一种基于数据增强和最大绝对差异的对抗样本生成方法及系统,该方法包括:预处理原始图像,得到被攻击图像;创建初始扰动图像,开始迭代;基于被攻击图像,获得并调整多张局部图像,结合扰动图像,对被攻击图像和多张局部图像进行数据增强处理;将数据增强处理后的图像输入至分类网络模型中,计算全局特征与多个局部特征之间的最大绝对差异损失值,并计算分类器损失值,综合得到总损失值,通过反向传播获取损失函数梯度信息;计算得到最终的图像梯度信息,生成并更新扰动图像;判断是否达到最大迭代次数,若是,则对被攻击图像叠加更新后的扰动图像,生成对抗样本;反之则迭代更新扰动图像。本发明能够有效提高生成对抗样本的迁移率。
-
公开(公告)号:CN117877521A
公开(公告)日:2024-04-12
申请号:CN202410021090.6
申请日:2024-01-04
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
Abstract: 本发明提出了基于数据增强的无监督机械声音异常识别方法及系统,通过对采集的正常音频数据提取对数梅尔谱图,并对对数梅尔谱图进行数据增强处理,用于识别模型的训练,增强了识别模型对于复杂故障模式的识别能力,并提高了其对于未知故障类型的泛化能力;在识别模型中通过添加自注意力机制捕捉长距离依赖,能够关注到输入特征图中相距较远的区域间的关系,提高特征提取和特征表达能力。
-
公开(公告)号:CN117219120A
公开(公告)日:2023-12-12
申请号:CN202311000370.0
申请日:2023-08-09
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
Abstract: 本发明公开一种基于时频域音频增强的机械设备异常检测方法及系统,包括:获取正常运行音频信号,提取幅度谱和相位谱,对幅度谱进行增强处理,将增强后的幅度谱与相位谱合并得到正常运行音频增强信号;对正常运行音频增强信号提取频谱特征,对卷积自编码器网络进行训练;对待测运行音频信号进行增强处理后得到待测运行音频增强信号,根据待测运行音频增强信号采用训练后的卷积自编码器网络得到待测运行音频重构信号,根据待测运行音频重构信号与待测运行音频增强信号间的重构误差得到异常检测结果。通过对音频信号进行增强,使得采集到的机械设备运行音频更加接近于机械设备本身,更利于异常声音检测而不会发生误判。
-
公开(公告)号:CN111508461B
公开(公告)日:2023-11-03
申请号:CN202010284793.X
申请日:2020-04-13
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G10K11/16
Abstract: 本发明公开了一种多声掩蔽系统信息中心化管理系统及方法,包括:控制器、信息中心化管理设备以及分别与所述信息中心化管理设备连接的至少两个声掩蔽系统,每一个声掩蔽系统包括声掩蔽系统控制器以及与其连接的至少一个声掩蔽系统负载;所述信息中心化管理设备被配置为对各声掩蔽系统进行参数配置;并且,接收各声掩蔽系统上传的工作状态数据,对所述工作状态数据进行分类,按照各数据分类的优先级别发送至控制器。本发明可根据防护区域的大小进行灵活扩展,实现多声掩蔽系统的协同防护;可以方便获取需防护区域防护参数,并进行灵活配置声掩蔽系统的数量以及位置。
-
公开(公告)号:CN116758451A
公开(公告)日:2023-09-15
申请号:CN202310601381.8
申请日:2023-05-24
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
Abstract: 本发明属于情感计算技术领域,提供了基于多尺度和全局交叉注意力的视听情感识别方法及系统,通过多尺度卷积注意力模块,提取不同上下文尺度的模态关键情感特征,弥补了单一尺度特征不足以表达人类复杂情感的缺陷。通过全局交叉注意力模块,同时考虑模态间和模态内的交互,从而学习更丰富的模态交互信息,并且减少了融合特征中的冗余。最后又设计了多尺度特征学习模块,从融合特征中进一步学习对两个模态共同有意义的情感信息。通过以上改进,最终所提出的方法能够实现更好的情感识别准确率和更高效的情感识别效率。
-
公开(公告)号:CN115881164A
公开(公告)日:2023-03-31
申请号:CN202211490561.5
申请日:2022-11-25
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
Abstract: 本发明公开了一种语音情感识别方法、系统、电子设备及计算机可读存储介质,属于语音信号处理与模式识别技术领域。包括获取语音信号并进行预处理,对预处理后的语音信号进行声学特征提取,对提取到的声学特征数据进行标准化处理;将标准化处理后的声学特征数据输入训练好的语音情感识别模型进行处理并分类,获取语音情感识别结果;其中,语音情感识别模型包括长短期记忆网络、编码器、双向长短期记忆网络和SoftMax分类模块。能够避免在输入到神经网络中时丢失时间信息,充分提取和处理时序特征;解决了现有技术中存在“有较好的运用语音的情感声学特征,尤其是时间序列的特征,出现梯度消失和信息损失”的问题。
-
公开(公告)号:CN115831099A
公开(公告)日:2023-03-21
申请号:CN202211509675.X
申请日:2022-11-29
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
IPC: G10L15/02 , G10L15/06 , G10L15/16 , G10L25/30 , G10L25/51 , G06N3/048 , G06F18/214 , G06F18/24 , G06N3/08
Abstract: 本公开提供了一种基于残差注意力网络的语音鉴伪方法及系统,所述方案包括:获取待检测的音频数据,并进行相应预处理;对预处理后的音频数据进行特征提取,并对提取的语音特征数据进行分针处理,获得固定帧长的语音信号特征数据;基于所述语音信号特征数据,利用预先训练的残差注意网络模型,获得增强后的特征数据;其中,所述残差注意网络模型包括顺序连接的卷积模块、多尺度残差模块、收缩激励单元、注意力池化模块以及全连接层;将增强后的特征数据输入预先训练的分类器中,获得语音鉴伪结果。
-
-
-
-
-
-
-
-
-