-
公开(公告)号:CN116738037A
公开(公告)日:2023-09-12
申请号:CN202310351857.7
申请日:2023-04-04
Applicant: 东南大学
IPC: G06F16/9535 , G06F16/532 , G06F16/583 , G06V10/74 , G06F18/22 , G06F16/335 , G06F40/247 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于非对称双编码器的图文检索方法及系统,分别使用双编码器和跨模态编码器对图或/和文进行编码,通过计算图或/和文编码后特征的余弦相似度获取相似分数,对相似分数进行排序,选取分数最高的图文作为输出,实现图文检索,一方面,非对称双编码器保留了交叉注意机制,实现了与跨模态编码器一样的高检索性能;另一方面,非对称双编码器独立编码查询和候选特征,这使模型能够克服批量大小限制并挖掘更多信息示例,其中批量大小能够明显地影响编码器的学习,有效地解决纯双编码器模型带来的精度降低以及纯跨模态编码器带来的计算效率过低的问题。
-
公开(公告)号:CN115828138A
公开(公告)日:2023-03-21
申请号:CN202211554133.4
申请日:2022-12-06
Applicant: 东南大学
IPC: G06F18/24 , G06F18/213 , G06N3/0455 , G06N3/08 , G01S7/02 , G01S7/52
Abstract: 本发明公开了一种基于MFCC特征和Transformer集成分类器的LFM信号分类方法,对采集到的线性调频信号进行信号预处理,得到有效脉冲信号,再进行包括预加重、分帧、加窗、快速傅里叶变化、Mel滤波器组、对数运算、离散余弦变换以及动态差分参数提取的MFCC特征提取过程,得到静态基础特征、一阶差分动态特征和二阶差分动态特征;将三组特征分别输入三个Transformer分类器进行差异性训练,得到预分类特征;再将三组预分类特征进行合并后输入进集成模块,分别进行归一化和三层线性层操作,最后通过一层全连接层,输出得到最终的分类结果。本发明将MFCC特征和Transformer相结合,提出了适用于线性调频信号的Transformer集成分类方法,有效地解决了配置相同的信号源区分困难的问题。
-
公开(公告)号:CN113449681B
公开(公告)日:2022-11-18
申请号:CN202110799161.1
申请日:2021-07-15
Applicant: 东南大学
Abstract: 本发明公开了一种联合注意力机制的3D人体姿态识别双分支网络模型,该模型通过两个并行分支可以同时学习到人体各个关节的特征信息分布和注意力分布,然后通过注意力分布来强化模型对于人体关节的专注能力。其中,注意力分支采用沙漏式网络结构。最后,模型通过根节点模块来解析深度信息,通过根节点相关姿态模块来解析3D人体相关姿态。本发明提出的模型通过双分支结构并行学习人体姿态的特征表示和注意力分布,并借助注意力分布有效提高了模型对人体关节的专注能力,从而极大地降低了模型在人体姿态识别上的关节定位误差。
-
公开(公告)号:CN114445739A
公开(公告)日:2022-05-06
申请号:CN202210022698.1
申请日:2022-01-10
Applicant: 东南大学
IPC: G06V20/40 , G06V10/762 , G06K9/62
Abstract: 本发明公开了一种基于自监督的视频聚类方法。该方法利用自监督的方式,学习得到视频在RGB和光流中的特征值,并对该特征值进行聚类。为了实现这一目标,将计算视频在RGB和光流中最近邻作为代理任务,实现无标签的视频特征提取。此外,对视频的每帧图片进行图片聚类,每个视频中出现次数最高的聚类标签作为视频的静态聚类标签。最后,将直接对视频提取得到的聚类特征作为视频的动态特征,结合静态聚类标签得到最终视频聚类结果。本发明可以在视频识别的数据集上提取具有判别性的特征表示,有效的提高了视频对齐问题的准确率。
-
公开(公告)号:CN113920584A
公开(公告)日:2022-01-11
申请号:CN202111207579.5
申请日:2021-10-15
Applicant: 东南大学
IPC: G06V40/20 , G06V10/44 , G06V10/764 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于时间感知特征学习的动作质量评估方法。该方法采用3D卷积网络学习了视频中的片段特征,并将片段特征通过时间感知模块去学习片段之间的关系,此关系能够抓住动作的变换信息来提高动作质量评估的准确性。然后通过片段关系去聚合得到整个视频的特征,其中视频特征可以直接用于动作的分数预测。此外,引入了字幕生成以及动作识别两个辅助任务来使得3D卷积网络能够学习到更丰富的特征表示。最后,为了确保时间感知模块能够更准确地抓住动作的变换信息,引入了一个对抗损失来稳定整个模型。本发明能够在动作质量评估数据集上提取到具有判别性的特征表示,有效的提高动作质量分评估问题中的斯皮尔曼相关系数。
-
公开(公告)号:CN110346763B
公开(公告)日:2021-03-09
申请号:CN201910643515.6
申请日:2019-07-17
Applicant: 东南大学 , 中国电子科技集团公司第十四研究所
IPC: G01S7/02
Abstract: 本发明公开了一种用于雷达LFM信号的抗噪声射频指纹识别方法,该方法包括在接收到低信噪比信号后,解调得到基带LFM信号,估计信号的频率和调频斜率,对信号进行分段拟合去噪,拼接获得完整的拟合信号,对拟合信号进行一阶差分,并取差分后的信号的包络,最后取包络首尾的采样点作为瞬态信号指纹,包络中间阶段的分段均值作为稳态信号指纹,并用合适的分类方法进行发射机的设备身份识别。本发明可以在信噪比低的情况下有效地提取LFM脉冲信号的物理指纹特征,有效地解决了基于LFM脉冲信号的设备识别方法在现实应用中必须面临的低信噪比问题。
-
公开(公告)号:CN114445739B
公开(公告)日:2024-12-31
申请号:CN202210022698.1
申请日:2022-01-10
Applicant: 东南大学
IPC: G06V20/40 , G06V10/762
Abstract: 本发明公开了一种基于自监督的视频聚类方法。该方法利用自监督的方式,学习得到视频在RGB和光流中的特征值,并对该特征值进行聚类。为了实现这一目标,将计算视频在RGB和光流中最近邻作为代理任务,实现无标签的视频特征提取。此外,对视频的每帧图片进行图片聚类,每个视频中出现次数最高的聚类标签作为视频的静态聚类标签。最后,将直接对视频提取得到的聚类特征作为视频的动态特征,结合静态聚类标签得到最终视频聚类结果。本发明可以在视频识别的数据集上提取具有判别性的特征表示,有效的提高了视频对齐问题的准确率。
-
公开(公告)号:CN115984607A
公开(公告)日:2023-04-18
申请号:CN202211554147.6
申请日:2022-12-06
Applicant: 东南大学
IPC: G06V10/764 , G06V10/774
Abstract: 本发明公开了一种基于样本代表性的类别不均衡多标签图像分类方法及系统,方法中样本代表性的动态损失由分类权重和动态focal损失结合构成,所述分类权重由当前分类类别与样本其他类别的标签共现率和类数目输入代表性协调函数后计算获得,所述动态focal损失由分类器输出的logits和分类权重为每个样本对每个类别计算的参数结合获得,本方法考虑了类别间的关联性,对类别的正负加权分类讨论,实现对负类别更合理的加权设计,强调了样本对于类别的代表性,来应对一些类别繁多的困难样本,有效地解决了数据集中存在的类别不均衡问题。
-
公开(公告)号:CN111898421B
公开(公告)日:2022-11-11
申请号:CN202010560716.2
申请日:2020-06-18
Applicant: 东南大学
Abstract: 本发明公开了一种用于视频行为识别的正则化方法,首先利用全局平均池化技术对每个时间步上的特征图进行显著性评估,利用gESD检验方法确定包含最显著空间特征的特征图,然后在选定的特征图内以通道为最小单元,以通道激活值占比为依据来计算每个通道的丢弃概率并执行丢弃操作(对应通道激活值置零),最后,由于正则化模块只在训练阶段生效,为保持训练阶段与推理阶段输出激活值幅度的一致性,需要为训练阶段的输出计算一个补偿系数与输出特征图相乘。本发明可以在推理阶段不增加任何额外计算消耗的情况下有效提高视频识别网络的验证集精度,且可以加入任何现有神经网络架构中,有效缓解网络在视频识别任务中过拟合空间特征而忽视时序特征的问题。
-
公开(公告)号:CN113420592A
公开(公告)日:2021-09-21
申请号:CN202110527929.X
申请日:2021-05-14
Applicant: 东南大学
Abstract: 本发明公开了一种基于代理度量模型的弱监督视频行为定位方法,视频行为定位在行为识别领域中扮演着重要的作用,由于人工对动作区间时序的标注既昂贵又费时,有效的弱监督的视频行为定位方法是不可或缺的,为了解决这个问题,本发明基于每个动作类的代理向量来训练模型,代理向量是通过训练得出的每个动作类的特征代表,它们被用于度量动作片段和不同动作原始特征的特征距离。本发明提出一种代理度量模块,它能使相同的动作片段特征聚类在一起,并且能让未裁剪视频中的背景片段特征远离动作片段特征,能有效地提高在弱监督环境下对视频进行行为定位的精度。
-
-
-
-
-
-
-
-
-