-
公开(公告)号:CN119165446A
公开(公告)日:2024-12-20
申请号:CN202411672346.6
申请日:2024-11-21
Applicant: 东南大学
IPC: G01S5/20 , G06N3/0464
Abstract: 本发明公开了一种基于多任务深度学习网络的螺旋麦克风阵列的声成像方法。通过短时傅里叶变换STFT,将麦克风阵列捕获的音频信号转为频谱图,提取其实部和虚部作为特征输入。这些特征分别输入到双流结构的双注意力网络中,以自适应方式融合局部和全局特征。之后,两路输出融合并通过卷积层及双向门控循环单元Bi‑GRU层进一步处理。通过两个全连接层分别计算声源位置和声压分布。最后,成像模块将声压分布信息与摄像头图像结合,生成直观的声像图。本发明通过引入频谱图的实部和虚部分量作为特征输入的双流结构,并分别结合双注意力网络模块,实现了在较少阵元条件下进行实时声源定位与成像,并且具备较高的空间分辨率和较强的抗干扰能力。
-
公开(公告)号:CN120070659A
公开(公告)日:2025-05-30
申请号:CN202510046011.1
申请日:2025-01-13
Applicant: 东南大学
IPC: G06T11/60 , G01S11/14 , G01S5/22 , G06N5/04 , G06N7/01 , G06F17/16 , G06T7/70 , G06T7/80 , G06T7/90
Abstract: 本发明公开了一种基于稀疏表征与变分贝叶斯推断的多声源定位与成像方法,步骤如下:(1)采用常规波束形成算法在低分辨率下生成初始声强矩阵,估计声源位置;(2)计算信号强度梯度,沿梯度方向更新搜索位置,获得准确的声源位置和高分辨率声强矩阵;(3)使用稀疏字典学习算法对高分辨率声强矩阵进行稀疏编码和字典更新优化;(4)基于稀疏系数构建变分贝叶斯推断模型,优化变分下界,进行多声源的后验定位估计;(5)将定位结果与摄像头图像融合,得到声源的可视化位置。该方法通过结合低分辨率定位、梯度优化、稀疏字典学习与贝叶斯推断,在复杂声场中实现高精度实时定位与成像,具有较高的空间分辨率和较强的抗干扰能力。
-
公开(公告)号:CN116486484A
公开(公告)日:2023-07-25
申请号:CN202310455332.8
申请日:2023-04-25
Applicant: 东南大学
IPC: G06V40/20 , G06V40/10 , G06V40/16 , G06V20/40 , G06V10/40 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/045 , G06N3/0464
Abstract: 本发明公开了一种融合手部骨骼和面部表情特征的手语识别方法,本发明的方法首先将表示手语含义的视频序列进行抽帧;再对抽取的RGB图像提取手部骨骼关节点在世界坐标系中的三维坐标,并通过坐标平移和旋转标准化为手部坐标系下三维坐标,得以更准确描述手部姿态;然后裁剪出各帧的脸部区域,并进行表情识别,得到关于各类表情的置信度信息并提取各帧手部区域的图像;再将手部区域图像输入卷积神经网络中学习图像的空间特征,将其输出特征信息与对应的手部骨骼关节点和表情信息进行拼接;最后将拼接的特征信息通过全连接层再输入到递归神经网络中学习时序特征。本发明有效解决了现有手语识别方法所存在的准确性不高、鲁棒性较差的问题。
-
-