-
公开(公告)号:CN112562702A
公开(公告)日:2021-03-26
申请号:CN202011374653.8
申请日:2020-11-30
Applicant: 哈尔滨工程大学
IPC: G10L21/003 , G10L25/18 , G10L25/24
Abstract: 本发明提供一种基于循环帧序列的门控循环单元网络的语音超分辨率方法,包括如下步骤:(1)对原始语音信号进行预处理;(2)提出构建CFS‑GRU模型;(3)完成基于循环帧序列网络的语音超分辨率。本发明基于GRU搭建的循环结构模型,直接将语音信号序列作为输入,很大程度上减小了计算代价,并且相比于传统方法有着较好的超分辨率效果;相比于LSTM,GRU模型有着较少的模型参数,通过GRU搭建的CFS‑GRU模型能够更快的训练和收敛。使用SegSNRLoss作为损失函数训练的CFS‑GRU模型能够更快的收敛,并且能够使输出帧序列有着较高的信噪比,提高超分辨率语音信号的质量。
-
公开(公告)号:CN114154538B
公开(公告)日:2022-09-02
申请号:CN202111421620.9
申请日:2021-11-26
Applicant: 哈尔滨工程大学
Abstract: 本发明属于工业声音异常检测技术领域,具体涉及一种基于相位编码和设备信息的工业声音异常检测系统。本发明能借助相位信息补足工业声音信号的精细度,获得高精度的声学特征,能够对高精度的声学特征进行建模,着重提升系统对于异常信息的敏感度,同时感知到不同工业设备之间的细微差异,规避了设备之间产生的声学干扰,并对建模结果进行高效率高精度的异常分数判定,具备优秀的工业声音异常检测性能。
-
公开(公告)号:CN112562706B
公开(公告)日:2023-05-05
申请号:CN202011376556.2
申请日:2020-11-30
Applicant: 哈尔滨工程大学
IPC: G10L21/02 , G10L21/0208 , G10L25/03
Abstract: 本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法,包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块;待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵,此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块;在目标说话人特征信息指导器中,特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性,或者不包含目标说话人特征。本发明能实现从复杂声学环境语音信号到特定目标语音信号的端到端处理,能高效提取出针对特定任务的目标说话人信息,而不受其他干扰信号的影响,保障了模型传递给后续任务的特定目标语音信号具备极高的语音质量与可感知性。
-
公开(公告)号:CN114154538A
公开(公告)日:2022-03-08
申请号:CN202111421620.9
申请日:2021-11-26
Applicant: 哈尔滨工程大学
Abstract: 本发明属于工业声音异常检测技术领域,具体涉及一种基于相位编码和设备信息的工业声音异常检测系统。本发明能借助相位信息补足工业声音信号的精细度,获得高精度的声学特征,能够对高精度的声学特征进行建模,着重提升系统对于异常信息的敏感度,同时感知到不同工业设备之间的细微差异,规避了设备之间产生的声学干扰,并对建模结果进行高效率高精度的异常分数判定,具备优秀的工业声音异常检测性能。
-
公开(公告)号:CN112562702B
公开(公告)日:2022-12-13
申请号:CN202011374653.8
申请日:2020-11-30
Applicant: 哈尔滨工程大学
IPC: G10L21/003 , G10L25/18 , G10L25/24
Abstract: 本发明提供一种基于循环帧序列的门控循环单元网络的语音超分辨率方法,包括如下步骤:(1)对原始语音信号进行预处理;(2)提出构建CFS‑GRU模型;(3)完成基于循环帧序列网络的语音超分辨率。本发明基于GRU搭建的循环结构模型,直接将语音信号序列作为输入,很大程度上减小了计算代价,并且相比于传统方法有着较好的超分辨率效果;相比于LSTM,GRU模型有着较少的模型参数,通过GRU搭建的CFS‑GRU模型能够更快的训练和收敛。使用SegSNRLoss作为损失函数训练的CFS‑GRU模型能够更快的收敛,并且能够使输出帧序列有着较高的信噪比,提高超分辨率语音信号的质量。
-
公开(公告)号:CN112562707A
公开(公告)日:2021-03-26
申请号:CN202011376572.1
申请日:2020-11-30
Applicant: 哈尔滨工程大学
IPC: G10L21/02 , G10L21/0208
Abstract: 本发明提供一种单信道目标语音增强方法,包括如下步骤:步骤一:语音信号的预处理与特征转换,引入时间潜在域信息,将时序波形信息通过深度学习框架拓展映射到对应潜在空间域的过程及其逆向变换;步骤二:基于生成信号权重的目标函数;步骤三:引入时序TCN网络模型;本发明网络能实现从混合源语音到目标语音信号的端到端处理,网络的增强性能优秀,能良好还原目标语音信号,同时提升了数据处理的并行处理能力,并能通过自身的数据增广丰富样本集,提升模型性能。
-
公开(公告)号:CN112562706A
公开(公告)日:2021-03-26
申请号:CN202011376556.2
申请日:2020-11-30
Applicant: 哈尔滨工程大学
IPC: G10L21/02 , G10L21/0208 , G10L25/03
Abstract: 本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法,包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块;待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵,此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块;在目标说话人特征信息指导器中,特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性,或者不包含目标说话人特征。本发明能实现从复杂声学环境语音信号到特定目标语音信号的端到端处理,能高效提取出针对特定任务的目标说话人信息,而不受其他干扰信号的影响,保障了模型传递给后续任务的特定目标语音信号具备极高的语音质量与可感知性。
-
-
-
-
-
-