-
公开(公告)号:CN104573729A
公开(公告)日:2015-04-29
申请号:CN201510037296.9
申请日:2015-01-23
Applicant: 东南大学
IPC: G06K9/62
Abstract: 本发明公开一种基于核主成分分析网络的图像分类方法,包括以下步骤:(1)输入并预处理训练图像,得到训练图像的局部特征矩阵,(2)建立一个两层的核主成分分析网络,获得训练图像的主特征向量,(3)并用获得的主特征向量训练分类器;为了验证分类的正确性,建立测试核主成分分析网络对测试图像进行测试。本发明通过构造一个两层的核主成分分析网络,能够获得图像的非线性特征,使得图像特征的描述更精确,分类也更为准确,对于图像分类问题有着更高的正确率。
-
公开(公告)号:CN117935849A
公开(公告)日:2024-04-26
申请号:CN202410017826.2
申请日:2024-01-05
Applicant: 东南大学
IPC: G10L25/30 , G10L25/51 , G10L25/03 , G06N3/0455 , G06N3/0464 , G06N3/044 , G06N3/0895
Abstract: 本发明公开了一种基于多目标对比学习的水声目标识别方法,包括对原始数据进行预处理,划分成有标注数据集和无标注数据集;分析处理后的噪声数据的频域特征和时序特征,构建对比学习代理任务,进而构建频域和时序信息自监督特征提取网络;将两个自监督特征提取网络进行融合,构建MTC框架;使用无标注数据集对MTC框架进行自监督预训练;将自监督预训练后的MTC框架的频域信息和时序信息的特征提取结果进行拼接,并添加一层全连接神经网络构建分类器;使用有标注数据集对下游分类任务进行监督训练,获得MTC框架在下游任务中的分类准确率,调整该框架的超参数。本发明在水声目标特征提取和识别的任务中显著降低了标注数据成本,提升了数据标注效率。
-
公开(公告)号:CN110084234B
公开(公告)日:2023-04-18
申请号:CN201910236980.8
申请日:2019-03-27
Applicant: 东南大学
IPC: G06V20/05 , G06V10/25 , G06V10/26 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/047 , G06N3/09
Abstract: 本发明公开一种基于实例分割的声呐图像目标识别方法,属于数字图像处理领域。包含如下步骤:设计具有抗噪声能力的改进深度残差网络作为主干网络,结合检测模型与全卷积网络,构建基于实例分割的声呐图像目标识别的网络模型;使用有监督的方法训练网络模型;使用一种基于简单线性迭代聚类的方法对分割边界进行优化。
-
公开(公告)号:CN115238783A
公开(公告)日:2022-10-25
申请号:CN202210841975.1
申请日:2022-07-18
Applicant: 东南大学
Abstract: 本发明公开了一种基于自监督学习的水声目标定位方法,首先对收集到的水声原始数据进行预处理,根据是否带有位置标签将数据集划分为有标签数据和无标签数据,有标签数据再次分为互相独立的训练集和测试集,再随机破坏无标签数据样本的采样协方差矩阵,以重构被破坏的部分为目标,训练一个基于Transformer模型的自监督模块,所述自监督模块为一个基于Transformer模型的自编码器结构,作用是重构被破坏的采样协方差矩阵,然后在自编码器训练完成后,将编码器的参数作为定位器模型的初始化参数,最后利用有标签数据集中的训练集对定位器模块的参数进行微调,从而在相关任务中显著提高模型性能、泛化能力、降低训练所需标签样本的作用。
-
公开(公告)号:CN114842214A
公开(公告)日:2022-08-02
申请号:CN202210535005.9
申请日:2022-05-17
Applicant: 东南大学
IPC: G06V10/44 , G06V10/774 , G06V10/764 , G06V10/82 , G06V20/05 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于强化学习的声呐图像目标识别方法,包括:(1)将卷积神经网络的层选择过程建模为马尔科夫决策过程;(2)定义强化学习Agent的状态空间和动作空间;(3)使用强化学习Q‑Learn i ng算法让Agent自动构建出一系列的卷积神经网络;(4)从自动生成的卷积神经网络中选出表现较好的网络模型,调整参数并迁移到目标检测网络中,如摘要附图所示;(5)用声呐图像数据集对整个目标检测网络进行监督式训练,完成声呐图像的目标识别工作,基于强化学习的Q‑Learn i ng算法来自动化卷积神经网络的构建过程,省去了大量手工调参投入,得到性能良好的卷积神经网络,提高声呐图像识别的工作效率。
-
公开(公告)号:CN113539232A
公开(公告)日:2021-10-22
申请号:CN202110781210.9
申请日:2021-07-10
Applicant: 东南大学
IPC: G10L13/047 , G10L13/033 , G10L13/08 , G10L25/24 , G10L25/30 , G10L19/16 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于慕课语音数据集的语音合成方法,该方法的主要特征在于通过真实场景下的语音构建的数据集进行语音合成,并进行说话人转换和多语种语音合成;该方法运用端到端的语音合成模型生成梅尔频谱,并用基于生成对抗网络的声码器将梅尔频谱转换成最终音频。本发明在真实场景下的语音数据集上有良好的效果,降低了语音合成所需数据的要求,提高了合成音频的质量,使合成音频更贴近真实说话场景。
-
公开(公告)号:CN113434727A
公开(公告)日:2021-09-24
申请号:CN202110852417.0
申请日:2021-07-27
Applicant: 东南大学
IPC: G06F16/71 , G06F16/735 , G06F16/783 , G06F16/74 , G06F40/258 , G06F40/279 , G06F40/58
Abstract: 本发明公开了一种新闻类长视频描述数据集的构建方法,该方法的主要特征在于把新闻类长视频构建成包含视频、视频标题、音频、中英文文本的数据集;该方法基于感知哈希算法计算相邻帧对应的灰度图之间的相似度来进行长视频的自动分割,使用FFmpeg完成音频的提取,并基于Python和selenium制作了一个语音识别工具来自动识别音频中包含的有效文本信息,最后通过脚本自动将视频片段、视频标题、音频、中英文文本信息组合形成一个新闻类长视频描述数据集,为长视频描述网络的研究以及长视频描述在为视频拟定标题方面的应用提供了支持。
-
公开(公告)号:CN113376577A
公开(公告)日:2021-09-10
申请号:CN202110111140.6
申请日:2021-01-27
Applicant: 东南大学
IPC: G01S5/20
Abstract: 本发明公开一种基于二维任意阵子空间的超短基线定位水下声源方法,属于阵列信号处理、海洋学等多学科交叉领域。本发明采用超短基线定位系统,设计了四元十字阵列形式的阵列结构,且采用任意阵模式来获取接收信号;对入射信号的俯仰角和方位角θ,基于子空间类MUSIC算法,利用相干信号子空间类方法,构建聚焦矩阵将宽带多频率聚焦到中心频率f0,对聚焦后的宽带信号,利用二维MUSIC改进算法,构建二维角度联合空间谱函数,对水下传播的宽带信号进行源目标的空间定位,解决了海洋宽带信号空间定位精确度不足的问题。相对于主流的基于时延差的方法,本发明提出的一种基于二维任意阵子空间的超短基线水下声源定位方法能够在信号和噪声相干条件下识别宽带信号,不同的信噪比条件下,本发明的定位精度高于其它对比算法。
-
公开(公告)号:CN109993280A
公开(公告)日:2019-07-09
申请号:CN201910236715.X
申请日:2019-03-27
Applicant: 东南大学
Abstract: 本发明公开了一种基于深度学习的水下声源定位方法,包括:对使用KRAKEN程序模拟出的向量数据进行归一化操作,并叠加0均值高斯随机噪声复向量n,得到在频率f处的模拟声场数据p(f);根据模拟声场数据p(f)构建归一化协方差矩阵H,并对矩阵H进行Hermitian分解,将复矩阵H转化为卷积神经网络能够处理的实矩阵,得到卷积神经网络的输入数据;使用输入数据训练卷积神经网络,得到水下声源定位预测模型,则根据观测到的声场数据,预测出信号源的距离和深度。本发明针对单、多声源情形下水下声源定位使用了LeNet‑5卷积神经网络与56层深度残差网络,取得了拥有较高精度和准确率的水下声源定位算法,并提高了水下声源定位的实时性。
-
公开(公告)号:CN106483193B
公开(公告)日:2019-01-08
申请号:CN201610853071.5
申请日:2016-09-26
Applicant: 东南大学
IPC: G01N29/024 , G01S5/22 , G01S15/88
Abstract: 本发明公开了一种基于高阶累计量的波达快速估计方法,属于信号处理技术领域。本发明针对现有基于高阶累积量的阵列信号处理方法所存在的计算复杂度过高的问题,利用线性时间的奇异值分解方法进行信号子空间的近似,从而大幅缩短算法的执行时间并大幅节约算法的占用内存。本发明还公开了一种基于声线传播时间层析的海洋声层析方法以及一种定位方法。本发明在保证较高分辨能力的同时,可大幅降低现有技术的时间复杂度与空间复杂度,减少硬件资源的消耗并提高信号处理的实时性。
-
-
-
-
-
-
-
-
-