-
公开(公告)号:CN110751281A
公开(公告)日:2020-02-04
申请号:CN201910991100.8
申请日:2019-10-18
Applicant: 武汉大学
Abstract: 本发明提供了一种HRTF的低维表达与重建技术方案,该技术利用卷积神经网络提取HRTF中与听觉定位线索相关的频谱特征,从而建立了基于卷积自编码器的HRTF低维表达方法。在进行HRTF的低维表达时,首先对原始HRTF数据进行移除前端时延、时-频变换、空间方位插值、数据标准化等预处理操作,然后将数据输入HRTF的卷积自编码器得到包含听觉定位特征的低维表达数据。在进行HRTF的重建时,将听觉定位特征的低维表达输入解码器进行解码,然后对输出数据进行数据反标准化、数据抽样、时-频变换、补充双耳间时间差等后处理操作实现HRTF的重建。本发明能够有效的提取听觉定位线索特征并对特征之间的复杂非线性关系进行表达,从而提高HRTF的低维表达和重建精度。
-
公开(公告)号:CN107610710A
公开(公告)日:2018-01-19
申请号:CN201710912599.X
申请日:2017-09-29
Applicant: 武汉大学
IPC: G10L19/008 , G10L19/02 , G10L25/27
Abstract: 本发明公开了一种面向多音频对象的音频编码及解码方法,编码时本方法首先将输入的多个音频对象信号从时域变换到频域,并将音频对象频域信号降混合得到一个单声道混合信号;根据每个音频对象信号和混合信号提取参数;并利用矩阵分解方法将大尺寸参数矩阵分解为小尺寸的系数矩阵与基矩阵;最后将混合信号与系数矩阵、基矩阵合成码流。解码时首先分解码流,根据系数矩阵与基矩阵重建得到参数矩阵;然后根据参数矩阵和混合信号对音频对象信号进行重建。本方法提高了参数频域分辨率,并利用矩阵分解的方法降低参数编码所需码率,可以同时保证低码率和高质量地重建音频对象信号。
-
公开(公告)号:CN109215635B
公开(公告)日:2020-08-07
申请号:CN201811249506.0
申请日:2018-10-25
Applicant: 武汉大学
Abstract: 本发明提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段,训练阶建立语音数据集,对数据集中的语音资料进行预处理;输入预处理后的窄带语音资料,进行短时傅里叶变换得到窄带语音频谱,将频谱信息对数化获取对数幅度谱;输入预处理后的宽带语音资料,提取宽带语音信号频谱倾斜度的全极点模型参数,转化成线性频谱对参数;训练频谱倾斜度重建网络并使用,重建宽带语音频谱倾斜度的全极点模型参数。本发明根据窄带语音信号重建宽带语音信号频谱倾斜度参数,适用于所有基于频谱倾斜度特征的语音清晰度增强系统之中,且可适配多语种、多模态的语音信号。
-
公开(公告)号:CN112365896B
公开(公告)日:2022-06-14
申请号:CN202011102043.2
申请日:2020-10-15
Applicant: 武汉大学
IPC: G10L19/008 , G10L19/02
Abstract: 本发明涉及数字音频信号处理技术,具体涉及一种基于栈式稀疏自编码器的面向对象编码方法,包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达,然后利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据。该方法利用栈式稀疏自动编码器(Stacked Sparse Autoencoder,SSAE)中的级联模块,每个模块都从其前一个模块中提取了边信息的有效特征。可以减少边信息参数的维数以节省比特率,并很好地重建音频对象。因此,能在相同的比特率下获得最佳的音频对象信号音质,以满足用户对音频对象个性化控制的需求。同时全面提升了音频对象信号的编码质量,提高编码效率。
-
公开(公告)号:CN112468931B
公开(公告)日:2022-06-14
申请号:CN202011203139.8
申请日:2020-11-02
Applicant: 武汉大学
Abstract: 本发明公开了一种基于球谐选择的声场重建优化方法及系统,其中的方法是一种可以在不改变扬声器布置的前提下优化声场重建误差的方法。优化声场重建误差时,由用户提供需要重建的目标声场对应的球谐系数,然后通过优化选择部分目标球谐系数进行优先重建,从而降低其在对该声场(例如某方向的声波)重建时的重建误差。本发明的性能优势在于同时考虑了目标重建声场以及重建的全局声场(声压)误差,能够进一步降低利用球谐表达来进行声场重建的误差。在声场重建时考虑了当前重建扬声器组对声场的表达能力,最大限度的利用了当前扬声器组的声场重建性能。
-
公开(公告)号:CN110751281B
公开(公告)日:2022-04-15
申请号:CN201910991100.8
申请日:2019-10-18
Applicant: 武汉大学
Abstract: 本发明提供了一种HRTF的低维表达与重建技术方案,该技术利用卷积神经网络提取HRTF中与听觉定位线索相关的频谱特征,从而建立了基于卷积自编码器的HRTF低维表达方法。在进行HRTF的低维表达时,首先对原始HRTF数据进行移除前端时延、时‑频变换、空间方位插值、数据标准化等预处理操作,然后将数据输入HRTF的卷积自编码器得到包含听觉定位特征的低维表达数据。在进行HRTF的重建时,将听觉定位特征的低维表达输入解码器进行解码,然后对输出数据进行数据反标准化、数据抽样、时‑频变换、补充双耳间时间差等后处理操作实现HRTF的重建。本发明能够有效的提取听觉定位线索特征并对特征之间的复杂非线性关系进行表达,从而提高HRTF的低维表达和重建精度。
-
公开(公告)号:CN112468931A
公开(公告)日:2021-03-09
申请号:CN202011203139.8
申请日:2020-11-02
Applicant: 武汉大学
Abstract: 本发明公开了一种基于球谐选择的声场重建优化方法及系统,其中的方法是一种可以在不改变扬声器布置的前提下优化声场重建误差的方法。优化声场重建误差时,由用户提供需要重建的目标声场对应的球谐系数,然后通过优化选择部分目标球谐系数进行优先重建,从而降低其在对该声场(例如某方向的声波)重建时的重建误差。本发明的性能优势在于同时考虑了目标重建声场以及重建的全局声场(声压)误差,能够进一步降低利用球谐表达来进行声场重建的误差。在声场重建时考虑了当前重建扬声器组对声场的表达能力,最大限度的利用了当前扬声器组的声场重建性能。
-
公开(公告)号:CN112365896A
公开(公告)日:2021-02-12
申请号:CN202011102043.2
申请日:2020-10-15
Applicant: 武汉大学
IPC: G10L19/008 , G10L19/02
Abstract: 本发明涉及数字音频信号处理技术,具体涉及一种基于栈式稀疏自编码器的面向对象编码方法,包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达,然后利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据。该方法利用栈式稀疏自动编码器(Stacked Sparse Autoencoder,SSAE)中的级联模块,每个模块都从其前一个模块中提取了边信息的有效特征。可以减少边信息参数的维数以节省比特率,并很好地重建音频对象。因此,能在相同的比特率下获得最佳的音频对象信号音质,以满足用户对音频对象个性化控制的需求。同时全面提升了音频对象信号的编码质量,提高编码效率。
-
公开(公告)号:CN110085245B
公开(公告)日:2021-06-15
申请号:CN201910281080.5
申请日:2019-04-09
Applicant: 武汉大学
Abstract: 本发明公开了一种基于声学特征转换的语音清晰度增强方法,本方法包括训练阶段和使用阶段;在训练阶段,结合说话人噪声对抗发声机理,使用普通语音信号与Lombard效应下的抗噪语音信号作为数据集,训练具有声学特征转换能力的映射模型,其映射特征包括语音帧频谱倾斜度、基频系数和能量系数,使用长短时记忆网络学习频谱倾斜度的特征映射能力,使用贝叶斯高斯混合模型学习基频系数和能量系数的特征映射能力;在使用阶段,基于已经训练好的特征映射模型和相应的预处理、后处理技术,将通信设备或交互设备解码后的语音信号逐帧转换为具备抗噪特性的语音信号,提升语音信号在噪声环境中播放时的听觉清晰度和感知可懂度。
-
公开(公告)号:CN107610710B
公开(公告)日:2021-01-01
申请号:CN201710912599.X
申请日:2017-09-29
Applicant: 武汉大学
IPC: G10L19/008 , G10L19/02 , G10L25/27
Abstract: 本发明公开了一种面向多音频对象的音频编码及解码方法,编码时本方法首先将输入的多个音频对象信号从时域变换到频域,并将音频对象频域信号降混合得到一个单声道混合信号;根据每个音频对象信号和混合信号提取参数;并利用矩阵分解方法将大尺寸参数矩阵分解为小尺寸的系数矩阵与基矩阵;最后将混合信号与系数矩阵、基矩阵合成码流。解码时首先分解码流,根据系数矩阵与基矩阵重建得到参数矩阵;然后根据参数矩阵和混合信号对音频对象信号进行重建。本方法提高了参数频域分辨率,并利用矩阵分解的方法降低参数编码所需码率,可以同时保证低码率和高质量地重建音频对象信号。
-
-
-
-
-
-
-
-
-