一种基于动作配准的人物视频对齐方法

    公开(公告)号:CN113409374A

    公开(公告)日:2021-09-17

    申请号:CN202110785160.1

    申请日:2021-07-12

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于动作配准的人物视频对齐方法。该方法利用检测人体关键点作为动作配准基准点,对相似动作进行配准以抵消视频拍摄角度和画面旋转带来的影响,并通过自监督的时间循环一致性来进行视频对齐。为了实现这一目标,使用空间变换网络对人体所在区域进行校准,并获取对应人体关键点。此外,采用随机抽样一致性算法将识别到的人体特征点按误差最小原则进行筛选,用筛选得到的点将用于动作配准。最后,引入了一种自监督的时间循环一致性对齐算法,将动作配准后的视频与基准视频进行对齐。本发明可以在视频对齐和识别的数据集上提取具有判别性的特征表示,有效的提高了视频对齐问题的准确率。

    一种基于动作配准的人物视频对齐方法

    公开(公告)号:CN113409374B

    公开(公告)日:2024-05-10

    申请号:CN202110785160.1

    申请日:2021-07-12

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于动作配准的人物视频对齐方法。该方法利用检测人体关键点作为动作配准基准点,对相似动作进行配准以抵消视频拍摄角度和画面旋转带来的影响,并通过自监督的时间循环一致性来进行视频对齐。为了实现这一目标,使用空间变换网络对人体所在区域进行校准,并获取对应人体关键点。此外,采用随机抽样一致性算法将识别到的人体特征点按误差最小原则进行筛选,用筛选得到的点将用于动作配准。最后,引入了一种自监督的时间循环一致性对齐算法,将动作配准后的视频与基准视频进行对齐。本发明可以在视频对齐和识别的数据集上提取具有判别性的特征表示,有效的提高了视频对齐问题的准确率。

    一种处理噪声标签的自标签修改方法

    公开(公告)号:CN115861625A

    公开(公告)日:2023-03-28

    申请号:CN202211554141.9

    申请日:2022-12-06

    Applicant: 东南大学

    Inventor: 张宇 林凡 米思娅

    Abstract: 本发明公开了一种处理噪声标签的自标签修改方法,随机选取小批量数据样本,将数据样本进行数据增强处理得到不同的视图,作为伪孪生神经网络的输入,输出对数据样本类别的预测概率;根据不同网络对不同视图的预测计算与数据样本标签分布的JS散度,用于判断其作为干净数据样本的可能性;根据给定的判断阈值,将该批量数据样本划分为干净数据样本和有噪声数据样本,对干净数据样本的标签仅进行光滑化的处理,对有噪声的数据样本根据模型的预测和样本自身的标签进行动态加权赋予有噪声数据样本可靠的标签;最后利用分类损失函数和一致性损失函数对模型进行更新。本发明方法用于解决标签噪声下的图像分类任务,取得良好的性能效果。

    一种基于代理度量模型的弱监督视频行为定位方法

    公开(公告)号:CN113420592B

    公开(公告)日:2022-11-18

    申请号:CN202110527929.X

    申请日:2021-05-14

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于代理度量模型的弱监督视频行为定位方法,视频行为定位在行为识别领域中扮演着重要的作用,由于人工对动作区间时序的标注既昂贵又费时,有效的弱监督的视频行为定位方法是不可或缺的,为了解决这个问题,本发明基于每个动作类的代理向量来训练模型,代理向量是通过训练得出的每个动作类的特征代表,它们被用于度量动作片段和不同动作原始特征的特征距离。本发明提出一种代理度量模块,它能使相同的动作片段特征聚类在一起,并且能让未裁剪视频中的背景片段特征远离动作片段特征,能有效地提高在弱监督环境下对视频进行行为定位的精度。

    基于稠密-分段式帧采样的视频行为识别方法、系统、计算机设备和存储介质

    公开(公告)号:CN111860222B

    公开(公告)日:2022-11-18

    申请号:CN202010620022.3

    申请日:2020-06-30

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于稠密‑分段式帧采样的视频行为识别方法、系统、计算机设备和存储介质。首先将视频均匀地分为N段,在每段中采样一帧做为关键帧,由关键帧组成关键片段。同时,对每一个关键帧,在其前后按固定的采样率采样连续若干帧,作为上下文帧。将上下文帧和其对应的关键帧组成一个上下文片段。进行一次稠密‑分段式帧采样,将会返回一个关键片段和N个上下文片段,将其送入时序稠密‑分段式网络TDSN中进行处理,从关键片段中提取长程时序信息,从上下文片段中提取局部上下文信息,将两种信息融合在一起,最终用于识别视频中的行为动作。本发明能够有效提取视频中的长程时序信息和局部上下文信息,有效地提升了视频行为识别的准确率。

    一种联合注意力机制的3D人体姿态识别双分支网络模型

    公开(公告)号:CN113449681A

    公开(公告)日:2021-09-28

    申请号:CN202110799161.1

    申请日:2021-07-15

    Applicant: 东南大学

    Abstract: 本发明公开了一种联合注意力机制的3D人体姿态识别双分支网络模型,该模型通过两个并行分支可以同时学习到人体各个关节的特征信息分布和注意力分布,然后通过注意力分布来强化模型对于人体关节的专注能力。其中,注意力分支采用沙漏式网络结构。最后,模型通过根节点模块来解析深度信息,通过根节点相关姿态模块来解析3D人体相关姿态。本发明提出的模型通过双分支结构并行学习人体姿态的特征表示和注意力分布,并借助注意力分布有效提高了模型对人体关节的专注能力,从而极大地降低了模型在人体姿态识别上的关节定位误差。

    一种用于视频行为识别的正则化方法

    公开(公告)号:CN111898421A

    公开(公告)日:2020-11-06

    申请号:CN202010560716.2

    申请日:2020-06-18

    Applicant: 东南大学

    Abstract: 本发明公开了一种用于视频行为识别的正则化方法,首先利用全局平均池化技术对每个时间步上的特征图进行显著性评估,利用gESD检验方法确定包含最显著空间特征的特征图,然后在选定的特征图内以通道为最小单元,以通道激活值占比为依据来计算每个通道的丢弃概率并执行丢弃操作(对应通道激活值置零),最后,由于正则化模块只在训练阶段生效,为保持训练阶段与推理阶段输出激活值幅度的一致性,需要为训练阶段的输出计算一个补偿系数与输出特征图相乘。本发明可以在推理阶段不增加任何额外计算消耗的情况下有效提高视频识别网络的验证集精度,且可以加入任何现有神经网络架构中,有效缓解网络在视频识别任务中过拟合空间特征而忽视时序特征的问题。

    一种基于时变滤波器的线性调频信号降噪方法

    公开(公告)号:CN113114160B

    公开(公告)日:2024-04-02

    申请号:CN202110571578.2

    申请日:2021-05-25

    Applicant: 东南大学

    Inventor: 胡爱群 米思娅

    Abstract: 本发明公开了一种基于时变滤波器的线性调频信号降噪方法,包括:(1)根据线性调频信号的先验信息和信号持续时间确定当前时刻信号所处频点;(2)根据当前时刻信号的频点计算带通滤波器的零极点,当前频点设定即为一个极点;(3)根据零极点参数计算带通滤波器的传递函数,并对当前时刻的信号进行滤波处理;(4)对所有时刻过滤后的信号按到达时间进行合并,得到最终的降噪后的线性调频信号。本发明针对线性调频信号进行降噪处理,具有良好的应用效果。

    一种用于LFM雷达的MGF射频指纹识别方法

    公开(公告)号:CN116383719A

    公开(公告)日:2023-07-04

    申请号:CN202310352546.2

    申请日:2023-04-04

    Applicant: 东南大学

    Abstract: 本发明公开了一种用于LFM雷达的MGF射频指纹识别方法,使用语音特征提取方法MFCC对每一个LFM脉冲的数据生成Mel特征,对不同长度的特征矩阵统一长度以保证维度一致,统一长度后的特征矩阵即为信号指纹特征,再使用单个GRU Cell对信号指纹特征进行建模,通过全连接层对建模后的特征进行识别分类,实现射频指纹的识别,提升了对于难以分类的样本的识别精度。本发明在低信噪比和多信号多工作模式下可以有效提取LFM脉冲信号的物理指纹特征,有效解决了实际应用环境下LFM信号识别不佳的问题。

    一种基于多视角的多任务肝脏肿瘤图像分割方法

    公开(公告)号:CN111696126B

    公开(公告)日:2022-11-11

    申请号:CN202010417948.2

    申请日:2020-05-18

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于多视角的多任务肝脏肿瘤图像分割方法。腹部CT图像经过预处理后,以切片的形式通过卷积神经网络模型同时得到其肝脏分割和肿瘤分割。该模型的输入为256×256×3大小的三维CT切片,输出为其中中间切片的相应分割。模型包含一个分割模块和一个精修模块,分别得到粗略的分割结果和精修的分割结果。模型通过一个组合损失函数进行优化,避免优化过程中的不稳定。本方法从三维CT图像的三个视角进行分割,把三个分割结果融合为一个得到最终的分割结果。本发明实现了对腹部CT图像的肝脏和肿瘤分割,有效地解决了分割过程中无法利用三维空间信息和优化不稳定的问题。

Patent Agency Ranking