-
公开(公告)号:CN116614761A
公开(公告)日:2023-08-18
申请号:CN202310532598.8
申请日:2023-05-12
Applicant: 北京大学
IPC: H04S7/00
Abstract: 本发明公开了一种基于扬声器阵列的近场声源重放方法,其步骤包括:1)测量不同头转动角度下各扬声器位置到听音位置的双耳信号;根据每一角度对应的双耳信号,计算得到该角度下各扬声器位置到听音位置的头相关传递函数HRTF;测量不同头转动角度下近场点声源位置到听音位置的头相关传递函数HRTF;2)根据步骤1)所得各头相关传递函数HRTF构造基础CTC滤波器求解方程,对其求解得到各扬声器的滤波器系数;3)根据各扬声器自己的滤波器系数对目标声源信号进行滤波后输入对应扬声器进行播放,实现近场声源的渲染。本发明实现了用远场扬声器对近场声源的有效渲染,并在渲染效果和鲁棒性上优于前人的方法。
-
公开(公告)号:CN115862659A
公开(公告)日:2023-03-28
申请号:CN202211184250.6
申请日:2022-09-27
Applicant: 北京大学
IPC: G10L21/0272 , G10L19/02 , G10L25/18 , G10L25/24 , G10L25/27
Abstract: 本发明公开了一种基于双向级联框架的迭代式基频提取与语音分离方法和装置,对混合语音逐帧迭代地进行“基频预测‑语音分离‑基频更新”,在迭代中提升二者的性能。基频预测模块为后续模块提供基频线索,解决了多个输出带来的置换问题和说话人数目不确定的问题。语音分离模块利用有条件的生成对抗网络进行生成式语音分离,提升分离的语音质量。基频更新模块从已分离出的干净语音中,重新提取基频,更新基频预测的预测值,实现了“预测‑分离‑更新”过程的闭环。在本发明提出的双向级联框架下,语音分离与基频提取这两个任务以迭代的方法交替更新,互相依赖、互相促进,两个任务都取得了更好的性能。
-
公开(公告)号:CN114882900A
公开(公告)日:2022-08-09
申请号:CN202210231178.1
申请日:2022-03-10
Applicant: 南京未来脑科技有限公司 , 北京大学
IPC: G10L21/0388 , G10L25/30 , G06N3/08 , G06N3/04
Abstract: 本发明公开了一种基于稀疏网络模型的声场球谐函数信号频域扩展方法。本方法为:使用全频带卷积层从多通道麦克风信号x中提取声场球谐函数变换过程中的频域无关特征;采用稀疏网络模型将频域无关特征分解为多个分频带特征,将每一分频带特征输入一分频带卷积网络来提取该分频带特征所对应的频率变换特征,并将其输入到频点内全连接层;模型包括多个并列的分频带卷积网络,每一所述分频带卷积网络包括依次连接的多个卷积层,且中间的两卷积层之间设有两稀疏卷积层;频点内全连接层根据各分频带特征对应的频率变换特征提取不同频点之间的球谐函数变换差异特征;对所述球谐函数变换差异特征进行频域空间逆傅里叶变换,得到对应的声场球谐函数信号。
-
公开(公告)号:CN113345448A
公开(公告)日:2021-09-03
申请号:CN202110518042.4
申请日:2021-05-12
Applicant: 北京大学
IPC: G10L19/008 , H04S3/02
Abstract: 本发明公开了一种基于独立成分分析的HOA信号压缩方法,其步骤包括:1)对待处理的目标HOA信号进行分帧,然后使用独立成分分析算法ICA对分帧之后的每一帧信号进行分解;2)根据所有帧的主成分构成传输通道中的前景信号,根据ICA得到的每一帧的mixing矩阵W‑1构成该帧的边信息,根据第i帧的mixing矩阵W‑1得到的un‑mixing矩阵W对ICA算法初始化后处理第i+1帧信号;3)编码器利用前景信号和边信息恢复得到前景信号的HOA形式表示,并通过与该目标HOA信号比较得到HOA形式的背景通道;背景通道经过简化后通过设定数量的传输通道传输给熵编码器进行压缩编码,传输通道通过熵编码器压缩编码。
-
公开(公告)号:CN112857370A
公开(公告)日:2021-05-28
申请号:CN202110018866.5
申请日:2021-01-07
Applicant: 北京大学
Abstract: 本发明公开了一种基于时序信息建模的机器人无地图导航方法,其步骤包括:1)基于循环神经网络构建移动机器人导航模型,该机器人导航模型含有移动机器人根据移动机器人上的传感器信息、场景中的目标位置信息到移动机器人执行速度指令的映射关系;移动机器人按照该机器人导航模型输出的速度指令到达导航目标位置;2)获取或构建导航数据集作为监督数据训练该移动机器人导航模型;3)通过该移动机器人搭载的激光雷达获取传感器数据,使用定位技术获取场景中的目标位置信息,然后通过训练后的该移动机器人导航模型计算该移动机器人的执行速度指令,通过执行速度指令操控该移动机器人到达目标位置。本发明能够让移动机器人获得避障导航能力。
-
公开(公告)号:CN112116920A
公开(公告)日:2020-12-22
申请号:CN202010796279.4
申请日:2020-08-10
Applicant: 北京大学
IPC: G10L21/0272 , G10L21/0308 , G10L21/0232 , G10L21/0224 , G10L21/0216 , G10L25/30 , H04R3/00
Abstract: 本发明公开了一种说话人数未知的多通道语音分离方法。本方法步骤包括:1)采集目标空间中的多通道音频信号,并提取该多通道音频信号的时频特征和空间特征;2)利用所述时频特征和所述空间特征估计出该目标空间中说话人所在方向的数目;3)利用所述时频特征、空间特征及估计出的方向数目,获得该目标空间中各说话人所在目标方向;4)利用估计出的各说话人所在目标方向设计方向特征,并结合时频特征和空间特征从该多通道音频信号中提取出每一目标方向上的语音信号;5)从每一目标方向上的语音信号中迭代分离出对应目标方向上可能存在的多个说话人语音。本发明既规避了语音迭代分离误差随迭代次数增大而增大的问题,又提高了语音分离的性能。
-
公开(公告)号:CN109327785B
公开(公告)日:2020-10-20
申请号:CN201811172486.1
申请日:2018-10-09
Applicant: 北京大学
Abstract: 本发明公开了一种基于言语测听的助听增益适配方法及设备。本方法为:1)获取并量化待测者的响度感知能力;2)计算测试材料的易混淆词对在选定的听力正常人上引起的特性响度模式,选出识别正确率能反映区分性感知线索的词对;3)使用筛选出的词对对听者进行言语测听;对言语测听结果进行估计,得到听者在不同频带、声强下的斜率;4)根据斜率计算出各频带在若干个设定声强范围内的助听增益的压缩率,更新对应声强范围的助听增益;5)根据斜率和压缩率从测试材料中选取下一轮言语测听的测听词对;6)重复步骤3)~5),直到满足设定的终止条件;然后选择最后若干轮迭代的助听增益的均值作为该待测者最终的助听增益适配结果。
-
公开(公告)号:CN111193990A
公开(公告)日:2020-05-22
申请号:CN202010009944.0
申请日:2020-01-06
Applicant: 北京大学
Abstract: 本发明公开了一种抗高频空间混叠的3D音频系统及实现方法。本方法为:1)对于给定的球麦克风阵列,对球面声压进行采样,并对采样的球面声压进行离散球傅里叶变换;其中离散球傅里叶变换的展开阶数不大于截断阶数N;2)根据步骤1)离散球傅里叶变换的展开系数与球面声压展开的真实系数之间的关系得到空间混叠矩阵E;3)通过公式min(||s||1)、 求解得到信号s;4)根据得到的信号s,通过公式BN=YNs将s编码到高阶N,获得高阶的HOA信号BN;5)将得到的HOA信号乘以球傅立叶变换的逆矩阵,进行重建声场,得到3D音频。
-
公开(公告)号:CN111157952A
公开(公告)日:2020-05-15
申请号:CN202010010360.5
申请日:2020-01-06
Applicant: 北京大学
Abstract: 本发明公开了一种基于移动麦克风阵列的房间边界估计方法。本方法为:1)利用麦克风阵列采集设定房间中声源的声场信号;2)对房间中的直达声和反射声位置进行估计,得到声场的空间指向图;3)相对麦克风阵列一目标方向的空间位置,将空间指向图在该目标方向的能量大小作为该空间位置的能量估计;4)将麦克风阵列围绕声源运动,重复2)~3);估计房间的声场能量分布;5)根据声场能量分布搜索能量分布峰值点,估计真实声源位置和镜像声源位置;6)根据声源位置进行阵列波束形成,提取并计算直达声信号和反射声信号之间的时间差进行镜像声源位置修正;7)利用真实声源位置和修正后的镜像声源位置信息对反射边界进行估计,得到该房间结构。
-
公开(公告)号:CN109782231A
公开(公告)日:2019-05-21
申请号:CN201910043338.8
申请日:2019-01-17
Applicant: 北京大学
IPC: G01S5/22
Abstract: 本发明公开了一种基于多任务学习的端到端声源定位方法及系统。本方法为:1)对于待扫描的每个声源位置,计算声音信号从该声源位置传输到各麦克风位置的延时;2)根据时延对该麦克风阵列每次扫描时各麦克风所采集的多通道帧级别的时域信号进行相应延时补偿;3)将每一延时补偿后的时域信号输入到一对应的CNN模型进行特征提取并输入到一深度神经网络;4)该深度神经网络根据各CNN模型提取的特征估计出每一扫描位置的多通道声源信号;5)对于每一扫描位置,计算该扫描位置对应的多通道声源信号的互相关系数和,选取相关系数和最大的位置作为声源位置。本发明能够自行提取合适的特征,并引入多任务学习机制,提高模型的定位性能。
-
-
-
-
-
-
-
-
-