-
公开(公告)号:CN118380006A
公开(公告)日:2024-07-23
申请号:CN202410482669.2
申请日:2024-04-22
Applicant: 重庆邮电大学
IPC: G10L21/0208 , G10L21/0216 , G10L21/0272 , G10L21/0232 , G10L25/30 , G10L25/84 , G10L25/51
Abstract: 本发明属于信号处理领域,涉及一种Ambisoncis语音增强方法,包括:获取一阶Ambisonics麦克风采集的带噪FOA语音信号,将FOA语音信号输入训练好的FOA‑DPCRN模型,得到估计的干净语音信号;所述FOA‑DPCRN模型包括:相位指导模块、W降噪模块、声强矢量提取器、复数DPCRN模块;本发明对W通道的语音信号进行降噪,根据W降噪特征得到反投影掩码,并根据反投影掩码将X、Y、Z通道的语音信号反投影到W通道上以提供更清晰的反投影指导;本发明结合相位指导特征和声强矢量特征来进一步区分噪声和目标语音;本发明通过在复数编码器后嵌入相位指导特征使网络能更加充分显式地利用语音空间特征信息。
-
公开(公告)号:CN118212929A
公开(公告)日:2024-06-18
申请号:CN202410480255.6
申请日:2024-04-22
Applicant: 重庆邮电大学
IPC: G10L21/0208 , G10L21/0224 , G10L21/0232 , G10L21/0264 , G10L25/18 , G10L25/45
Abstract: 一种个性化Ambisonics语音增强方法,包括:获取待增强的语音数据,对待增强的语音数据提取频谱图,并对待增强的语音数据进行短时傅里叶变换;将频谱图输入到说话人编码器中,并输入到时域掩码系统的LSTM网络中;将短时傅里叶变换后的信号输入到复数特征编码器,得到实部虚部频谱图;LSTM网络对目标说话人嵌入向量和实部虚部频谱图进行处理,并输入到FCN网络中,得到增强后的目标说话者语音;将增强后的目标说话者语音与短时傅里叶变换后的信号进行乘积,并将乘积后的信号进行短时傅里叶逆变换,得到增强后的干净语音信号;本发明通过构建目标说话人编码器提取目标说话人语音高维特征,从而将干扰语音和背景噪声同时去除。
-
公开(公告)号:CN119206360A
公开(公告)日:2024-12-27
申请号:CN202411415653.6
申请日:2024-10-11
Applicant: 重庆邮电大学
IPC: G06V10/764 , G06V10/82 , G06N3/0985 , G06N3/084 , G06N3/0464 , G06N3/048
Abstract: 本发明涉及一种基于自适应任务正则化模型无关元学习的图像分类方法,属于计算机视觉技术领域。该方法包括:获取数据集,并对数据进行预处理;建立图像识别模型;通过基于自适应任务正则化模型无关元学习方式对图像识别模型进行训练其中;通过训练完成的图像识别模型对图像进行分类识别。本发明提供了一种基于自适应任务正则化模型无关元学习的图像分类方法,在外循环更新中将任务难度整合为一个正则化项,以便模型可以根据模型已经学到的内容自适应地学习任务经验,通过这种方式,模型可以在不同时期从任务中学到有效知识,更好在数据不足的环境下快速泛化。
-
-