-
公开(公告)号:CN106303843B
公开(公告)日:2018-04-03
申请号:CN201610616173.5
申请日:2016-07-29
Applicant: 北京工业大学
Abstract: 本发明公开一种多区域不同语音声源的2.5D重放方法,将S路语音信号变换到频域,提取各频率系数的幅度信息,并基于幅度信息得到空间内各相应目标子声场的二维柱谐展开表达式;基于空间柱谐系数转换理论,通过空间转移算子把S组子区域声场系数转换为一组整体的声场柱谐展开系数;基于空间声场的线性叠加理论和球贝塞尔函数的附加理论,得到高阶扬声器阵列重建声场的三维球谐表达式,在最小均方准则下计算出2.5D重放系统中各高阶扬声器的模式权值;将高阶扬声器模式权值变换到时域,得到高阶扬声器内各指向性扬声器的时域重放信号。本发明解决了实际三维扬声器和二维重建声场间的维度不匹配问题,同时能够在S个区域重放S个不同的声源信号。
-
公开(公告)号:CN101572088A
公开(公告)日:2009-11-04
申请号:CN200810094436.6
申请日:2008-04-30
Abstract: 本发明实施例公开了一种立体声编解码方法、编解码器及编解码系统,涉及多媒体技术领域,能够编解码嵌入式立体声信号。所述立体声编码方法包括:对立体声信号的采样率进行判断,选择相应的编码模式;对立体声信号的左右声道进行求均值、求差值,分别得到立体声信号的中值信号和边带信号;对所述中值信号和边带信号分别进行编码形成嵌入式结构的码流。相对于编码过程,所述立体声解码方法对嵌入式结构的码流选择不同的码率层进行解码,分别解出中值信号与边带信号得到中值信号与边带信号合成得到立体声信号。本发明实施例通过构建多个码率层,可以处理16kHz采样的宽带立体声信号和32kHz采样的超宽带立体声信号。
-
公开(公告)号:CN110398716B
公开(公告)日:2021-05-28
申请号:CN201910784643.2
申请日:2019-08-23
Applicant: 北京工业大学
Abstract: 本发明提出一种利用声源间稀疏成分均衡的多声源定位方法,通过均衡各声源的稀疏成分以获得更准确的方向估计。首先将声场麦克风信号变换到频域得到频域系数,对其按频率范围进行子带划分并计算声场麦克风各通路间的归一化互相关系数;其次,检测单声源子带,估计单声源子带内各时‑频点的角度;再次,利用均衡处理区间内各帧的帧内强稀疏性声源确定区间强稀疏性声源,结合历史均衡处理区间的时‑频点角度估计值和区间强稀疏性声源确定全局强稀疏性声源角度并设立移除范围,对当前均衡处理区间内角度估计值落入移除范围的时‑频点成分进行移除;最后,对若干个经过均衡处理后的区间内的时‑频点角度估计值进行后处理以获得各声源角度的准确估计。
-
公开(公告)号:CN110275138A
公开(公告)日:2019-09-24
申请号:CN201910640408.8
申请日:2019-07-16
Applicant: 北京工业大学
IPC: G01S5/20
Abstract: 本发明提出一种利用优势声源成分移除的多声源定位方法,通过移除优势声源成分使声场景内各声源的波达方向估计更准确。首先,将声场麦克风采集信号变换到频域获得频率系数,对频域信号按频率范围进行子带划分并计算声场麦克风各通路间相同频率范围子带的归一化互相关系数;其次,检测单声源子带,对单声源子带内各时-频点对应角度进行估计;再次,利用各个历史帧的帧内优势声源确定全局候选优势声源,结合时-频点角度估计值和全局候选优势声源确定全局优势声源角度并设立移除区间,对当前帧角度估计值落入移除区间的时-频点成分进行移除;最后,对若干帧经过移除处理后的时-频点角度估计值进行后处理以获得各声源角度的准确估计。
-
公开(公告)号:CN106303843A
公开(公告)日:2017-01-04
申请号:CN201610616173.5
申请日:2016-07-29
Applicant: 北京工业大学
CPC classification number: H04R5/02 , H04R2205/024 , H04S7/302
Abstract: 本发明公开一种多区域不同语音声源的2.5D重放方法,将S路语音信号变换到频域,提取各频率系数的幅度信息,并基于幅度信息得到空间内各相应目标子声场的二维柱谐展开表达式;基于空间柱谐系数转换理论,通过空间转移算子把S组子区域声场系数转换为一组整体的声场柱谐展开系数;基于空间声场的线性叠加理论和球贝塞尔函数的附加理论,得到高阶扬声器阵列重建声场的三维球谐表达式,在最小均方准则下计算出2.5D重放系统中各高阶扬声器的模式权值;将高阶扬声器模式权值变换到时域,得到高阶扬声器内各指向性扬声器的时域重放信号。本发明解决了实际三维扬声器和二维重建声场间的维度不匹配问题,同时能够在S个区域重放S个不同的声源信号。
-
公开(公告)号:CN113189544B
公开(公告)日:2023-06-30
申请号:CN202110465158.6
申请日:2021-04-23
Applicant: 北京工业大学
IPC: G01S5/22
Abstract: 本发明提出一种利用活动强度矢量加权移除野点的多声源定位方法,通过移除在定位过程中贡献较低的时频点以在混响条件下获得更准确的方位估计。首先提取单声源区域。其次,计算单声源区域内部每个点的活动强度矢量和区域平均活动强度矢量,求取点‑区域活动强度权值并对时频点赋权。获取各个声源DOA粗估计方向上的活动强度矢量,计算点‑声源活动强度权值。最后,构建复合权值,对该复合权值进行聚类以移除野点。利用剩余点的复合权值构建的直方图,通过后处理和峰值搜索对声源位置进行估计,最小化野点对定位精度的影响,实现高混响声场景下的多声源精确定位。
-
公开(公告)号:CN115656927A
公开(公告)日:2023-01-31
申请号:CN202211243565.3
申请日:2022-09-28
Applicant: 北京工业大学
IPC: G01S5/20
Abstract: 本发明提出一种利用信号时频点角度分布信息的多声源定位方法。第一步,获得声场麦克风录制信号的时频点方位角和仰角信息。第二步,对每一帧录制信号在频域上划分子带,构建各子带内时频点的方位角集合和仰角集合。第三步,分别对方位角和仰角的取值范围进行区间划分,确立方位角和仰角子区间。第四步,分别将每个子带时频点的方位角和仰角划分到对应的角度子区间内,构建各子带中不同角度子区间的方位角集合和仰角集合。第五步,分别保留各角度数量最多的方位角子区间集合和仰角子区间集合。分别将方位角和仰角的各个子区间集合合并。最后对两个集合中的角度进行核密度估计,所得角度分布曲线中的峰值所对应的角度值为声源波达方向估计值。
-
公开(公告)号:CN114509721A
公开(公告)日:2022-05-17
申请号:CN202210119961.9
申请日:2022-01-24
Applicant: 北京工业大学
IPC: G01S3/802
Abstract: 本发明提出一种利用信号时频点相关性判别的多声源定位方法,通过语音信号的时域相关性和局部频率稳定性进行单源点检测。首先,进行指导时频点的检测。其次,利用指导点的波达方向信息,通过指导点与相邻时频点的方向偏差测度进行帧内的单源点检测,得到指导点的频域相关单声源点。再次,结合帧间频率子带相关系数和指导点与相邻时频点的方向偏差测度,得到指导点的时域相关单声源点。然后,计算检测到的所有点的波达方向估计值,利用核密度估计和峰值搜索估计各声源的角度区间。最后,通过统计加权的精细定位得到各声源角度估计值。
-
公开(公告)号:CN110600038B
公开(公告)日:2022-04-05
申请号:CN201910784077.5
申请日:2019-08-23
Applicant: 北京工业大学
Abstract: 本发明涉及一种基于离散基尼系数计算的音频指纹降维方法,旨在解决音频指纹特征维度高的问题,具体包括分类构建目标声音库、提取样本音频的指纹特征、引入离散基尼系数对音频指纹特征进行降维。本发明在音频指纹各维度引入指纹离散基尼系数,通过音频指纹各维度的离散基尼系数大小反映出不同音频在该维的区分性大小,通过保留离散基尼系数大的维度,删除离散基尼系数小的维度达到降维的目的。通过降维后的音频指纹特征构建的样本音频指纹库数据量更小、利用率更高。
-
公开(公告)号:CN110610722A
公开(公告)日:2019-12-24
申请号:CN201910914499.X
申请日:2019-09-26
Applicant: 北京工业大学
Abstract: 本发明属于智能应用型声场判别领域,具体涉及一种短时能量及梅尔倒谱系数联合矢量量化的危险声场景判别方法。该方法具体包括危险声场景声音库的建立、构建音频时频复合特征参数、引入改进型矢量量化模型对音频特征参数训练;在危险声场景匹配阶段利用欧式距离测度算法进行失真度匹配,找到最小平均误差失真度作为最佳匹配进而达到识别效果。
-
-
-
-
-
-
-
-
-