一种基于目标变换回归网络的精确目标跟踪方法

    公开(公告)号:CN115115667A

    公开(公告)日:2022-09-27

    申请号:CN202110289022.4

    申请日:2021-03-18

    Applicant: 南京大学

    Abstract: 一种基于目标变换回归网络的精确目标跟踪方法,包括以下步骤:1)生成训练样例阶段;2)网络的配置阶段;3)离线训练阶段;4)在线跟踪阶段。本发明设计的目标变换回归网络,将待测视频第一帧的目标信息融入待跟踪视频帧的回归分支中,并且在目标框回归中引入了在线更新的机制,实现目标跟踪。相比现有的无锚框跟踪方法,本发明的跟踪方法能对跟踪过程中的物体变形有更好的适应能力,有效地提升目标回归的精度。

    一种基于自对齐双重回归的单图像人脸三维重建方法

    公开(公告)号:CN114972619A

    公开(公告)日:2022-08-30

    申请号:CN202110199236.2

    申请日:2021-02-22

    Applicant: 南京大学

    Abstract: 一种基于自对齐双重回归的单图像人脸三维重建方法,包括处理训练数据阶段,网络配置阶段,训练阶段和测试阶段。本发明方法基于注意力机制对人脸未被遮挡区域进行了增强,从而提升了对遮挡的鲁棒性;对三维人脸的姿态和形状进行解耦,单独学习与姿态无关的三维人脸形状回归,提升了人脸重建的精度,削弱了姿态变化的负面影响;将姿态信息编码在作为中间结果的粗糙人脸模型中,并通过自对齐的后处理过程结合估计出的人脸区域可见度提取出人脸姿态,相比于现有单图像人脸三维重建方法中直接回归姿态的方式,本发明对于人脸图像中存在遮挡、姿态变化的情况具有更好的鲁棒性。

    一种基于自监督和自蒸馏的长尾图像识别方法

    公开(公告)号:CN113837238A

    公开(公告)日:2021-12-24

    申请号:CN202111026141.7

    申请日:2021-09-02

    Applicant: 南京大学

    Abstract: 一种基于自监督和自蒸馏的长尾图像识别方法,构建多阶段的训练框架训练特征提取网络,第一阶段在长尾分布采样下利用自监督训练特征提取网络,第二阶段在保留第一阶段特征提取网络权重的情况下,在类别平衡采样下微调特征提取网络的分类器,生成用于自蒸馏的软标签,第三阶段丢弃之前的权重,在长尾分布采用下利用软标签作为监督对特征提取网络进行自蒸馏联合训练,得到的特征提取网络用于长尾分布下的图像识别分类。本发明针对长尾数据的特征提取网络提出一种利用自监督和自蒸馏的多阶段训练方法,利用自监督方法对尾部类别得到充分的表征,同时利用自蒸馏的方法将头部类别的知识有效迁移到尾部类别中。

    视频信息处理方法、装置、电子设备及存储介质

    公开(公告)号:CN113569605A

    公开(公告)日:2021-10-29

    申请号:CN202110058983.4

    申请日:2021-01-17

    Abstract: 本公开提供了一种视频信息处理方法,包括:对目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;确定中心图像帧的物体特征向量、层次关系树结构、关系特征向量;确定采样图像帧的物体时序特征向量和关系时序特征向量;根据物体特征向量、关系特征向量、层次关系树结构、物体时序特征向量和采样图像帧的关系时序特征向量,通过视频信息处理模型进行特征向量聚合处理;对采样图像帧中的物体进行分类;确定与目标视频相对应的视频场景图。本公开还提供了信息处理装置、电子设备及存储介质。本公开不但有效压缩视频处理模型的模型结构,减少计算量,同时所生成的场景图的准确率较高,场景图生成速度较快,提升了用户的使用体验。

    一种基于全卷积网络在线训练的单目标跟踪方法

    公开(公告)号:CN113538507A

    公开(公告)日:2021-10-22

    申请号:CN202010293393.5

    申请日:2020-04-15

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于全卷积网络在线训练的目标追踪方法,包括以下步骤:1)生成训练样例阶段;2)网络的配置阶段;3)离线训练阶段;4)在线跟踪阶段;本发明通过设计的完全端到端训练的全卷积网络,采用生成目标分类和目标回归模板来指导分类和回归任务,以及在线更新分类和回归模板的策略,来实现目标追踪任务。本发明通过一个简洁的全卷积网络结构以及对分类和回归模板进行在线优化,获得了鲁棒性强且精度高的单目标跟踪方法。

    一种文本引导的视频时序动作分割方法、设备及存储介质

    公开(公告)号:CN118334558A

    公开(公告)日:2024-07-12

    申请号:CN202410568280.X

    申请日:2024-05-09

    Applicant: 南京大学

    Abstract: 一种文本引导的视频时序动作分割方法、设备及存储介质,构建一个文本引导的视频时序动作分割模型,包括视频片段编码器、文本编码器、时序骨干网络和分类网络,首先由视频片段编码器提取视频片段特征,经时序骨干网络得到包含全局信息的时序特征,同时文本编码器对起始动作和终止动作的语言描述提取文本特征,将时序特征与文本特征进行时序上的模态对齐,以实现文本特征引导时序动作的分割,同时为了进一步缓解背景干扰带来的过分割问题,将时序特征进行时序上的可学习局部平滑,最后对得到的时序特征由分类得到分割结果。本发明通过标注文本引导的视频时序动作分割框架,增强了对于视频时序特征的约束,改善在强背景干扰下的分割性能。

    一种基于多源运动特征融合的时序自适应视频分类方法

    公开(公告)号:CN111209883B

    公开(公告)日:2023-08-04

    申请号:CN202010032965.4

    申请日:2020-01-13

    Applicant: 南京大学

    Abstract: 一种基于多源运动特征融合的时序自适应视频分类方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,采用多源多尺度运动信息进行早期融合,融合包括原视频帧序列信息、段内局部帧间差以及全局段间特征差,并在融合过程中实现时序自适应调整策略,完成视频分类任务。本发明在融合多源运动信息的同时,通过时序自适应调整,适配视频分类任务,获得了鲁棒性强且精度高的视频分类方法,提出了融合全局、原有单帧信息、局部运动信息的方式,这种融合位于网络的浅层,使得相比于其他融合策略而言计算更加快速,且具有很好的移植性。

Patent Agency Ranking