基于主动学习的声呐图像目标识别方法

    公开(公告)号:CN110837870B

    公开(公告)日:2023-05-12

    申请号:CN201911099760.1

    申请日:2019-11-12

    Applicant: 东南大学

    Inventor: 邓雨田 姜龙玉

    Abstract: 本发明公开了一种基于主动学习的声呐图像目标识别方法,包括如下步骤:步骤1:对声呐图像数据集进行数据增强处理以扩充数据集;步骤2:从步骤1划分的训练集中选出一组样本进行标注,构成初始训练集,并将这些初始训练集的样本从总的训练集中剔除;步骤3.使用初始训练集训练YOLO模型;步骤4:在剔除初始训练集后的剩余样本训练集中利用主动学习样本选择策略挑选一组样本,将选择出的样本进行人工标注,加入训练集训练YOLO模型;步骤5:重复步骤4,直至剩余样本训练集中所有的样本都被选择;步骤6:YOLO模型训练结束,保存权重、经测试集测试以后输出YOLO模型的精度。本发明极大地降低标注成本,并得到理想的精度。

    一种真实场景下的多模态数据集的构建方法

    公开(公告)号:CN115019358A

    公开(公告)日:2022-09-06

    申请号:CN202110951389.8

    申请日:2021-08-18

    Applicant: 东南大学

    Abstract: 本发明公开了一种真实场景下的多模态数据集的构建方法,该方法将慕课授课视频构建成包含音频、图像、视频三个模态的数据集;该方法使用多任务卷积神经网络进行人脸检测,使用FaceNet提取说话人特征并构建人脸库,在扫描视频的过程中逐步扩充完善人脸库,通过计算视频截取的人脸与人脸库中人脸的欧氏距离,对视频进行分类,并结合ffmpeg完成批量自动化视频分类和分割,构造出同时带有说话人面部视觉信息和说话人声音信息的数据集。本发明通过采集慕课网授课视频,保证了数据集的音频多样性和场景真实性,有助于训练音频相关深度学习模型的泛化性能;且全自动批处理方法提高了多模态数据集的构建效率。

    一种使用单个带噪语音样本进行语音去噪的方法

    公开(公告)号:CN113823308A

    公开(公告)日:2021-12-21

    申请号:CN202111100709.5

    申请日:2021-09-18

    Applicant: 东南大学

    Abstract: 本发明提供了一种仅使用单个带噪语音样本进行语音去噪的方法。该方法包括以下步骤:(1)对于干净的语音信号,分别叠加合成噪声和真实世界的不同噪声类型生成带噪语音样本;(2)对于单个带噪语音样本,使用一个语音下采样器生成一对语音训练样本;(3)将训练的输入语音转化为频谱图,然后输入去噪网络进行训练,该去噪网络在十层深度复数Unet的编码器和解码器之间叠加了复数两级Transformer模块;(4)训练使用的损失函数由基础损失和正则化损失组成,基础损失由网络特点决定,正则化损失可以防止单样本去噪训练出现过度平滑现象。对比使用干净语音以及使用一对带噪语音进行训练的传统方法,该方案在信噪比、语音质量感知评估、短时客观可懂度等多个评估指标上均取得了更好的结果。

    一种基于宽带压缩感知的超短基线水下声源定位方法

    公开(公告)号:CN112946577A

    公开(公告)日:2021-06-11

    申请号:CN202110138315.2

    申请日:2021-02-01

    Applicant: 东南大学

    Inventor: 杨磊 姜龙玉

    Abstract: 本发明公开了一种基于宽带压缩感知的超短基线水下声源定位方法,解决了在复杂海洋环境下因数据欠采样而导致定位精度不足的问题。包括以下步骤:1、采用合适的稀疏基矩阵,将原始信号通过稀疏基进行稀疏信号表示;2、确定稀疏阵列流,并叠加高斯随机噪声得到;3、对阵列接收宽带信号进行相干信号子空间(CSM)处理,并构建聚焦矩阵将宽带多频率聚焦到中心频率;4、利用二维宽带算法对聚焦信号获取信号子空间,并利用方位角和俯仰角的稀疏网格构建相应的测量矩阵,通过二阶锥规划来获得声源的方位角和俯仰角。本发明利用了宽带信号的多信息化特点,在取得了较高定位精度和准确率的同时,还提高了算法对噪声环境的鲁棒性。

    一种基于稀疏贝叶斯学习的源定位方法

    公开(公告)号:CN108802683B

    公开(公告)日:2021-04-27

    申请号:CN201810540578.4

    申请日:2018-05-30

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于可预测简正波的稀疏贝叶斯学习的源定位方法,属于信号处理技术领域。本发明的方法针对现有基于稀疏贝叶斯学习的匹配场处理方法存在环境失配的问题,利用不同简正波受到环境变化影响的差异,提取出受到环境变化影响较少的简正波来计算拷贝场字典。由于声场由简正波叠加而成,提取其中受到环境影响较小的简正波部分作为可预测简正波计算拷贝场字典,从而减少环境失配带来的定位误差,提升了对环境失配的鲁棒性。

    基于子空间的压缩感知高分辨阵列处理方法

    公开(公告)号:CN108181611B

    公开(公告)日:2020-06-30

    申请号:CN201711308659.3

    申请日:2017-12-11

    Applicant: 东南大学

    Inventor: 姜龙玉 张喆

    Abstract: 本发明公开一种基于子空间的压缩感知高分辨阵列处理方法,利用被测量信号在稀疏基下的稀疏性,构造凸优化计算函数。本发明能够在信号和噪声相干条件下识别信号,不同的信噪比条件下,本发明的均方根误差小于其它对比算法,且计算时间与现有方法相差无几。

    基于三维非线性偏直接相干函数的脑电信号间效应连通性检测方法

    公开(公告)号:CN109124623A

    公开(公告)日:2019-01-04

    申请号:CN201810554759.2

    申请日:2018-06-01

    Applicant: 东南大学

    CPC classification number: A61B5/0476 A61B5/7225

    Abstract: 本发明公开了一种基于三维非线性偏直接相干函数的脑电信号间效应连通性检测方法,包括如下步骤:(1)构造单输入多输出的非线性自回归模型;(2)应用FROLS算法对步骤(1)构造的模型进行系数估计;(3)对三维PDS进行形式变换,得到用频率响应函数描述的信号yi对yj的PDC的定义式;(4)应用Volterra级数核函数的多维傅里叶变换对SIMO NARX模型进行频域分析,计算出模型的非线性频率响应函数;(5)将步骤(4)计算出的非线性频率响应函数代入步骤(3)中的PDC定义式,得到三维NPDC,得出在同时考虑三维信号的情况下某一信号对另一信号的因果影响。该方法可以检测三维脑电信号之间的因果关系。

    一种基于核主成分分析网络的图像分类方法

    公开(公告)号:CN104573729B

    公开(公告)日:2017-10-31

    申请号:CN201510037296.9

    申请日:2015-01-23

    Applicant: 东南大学

    Abstract: 本发明公开一种基于核主成分分析网络的图像分类方法,包括以下步骤:(1)输入并预处理训练图像,得到训练图像的局部特征矩阵,(2)建立一个两层的核主成分分析网络,获得训练图像的主特征向量,(3)并用获得的主特征向量训练分类器;为了验证分类的正确性,建立测试核主成分分析网络对测试图像进行测试。本发明通过构造一个两层的核主成分分析网络,能够获得图像的非线性特征,使得图像特征的描述更精确,分类也更为准确,对于图像分类问题有着更高的正确率。

Patent Agency Ranking