-
公开(公告)号:CN115115667A
公开(公告)日:2022-09-27
申请号:CN202110289022.4
申请日:2021-03-18
Applicant: 南京大学
Abstract: 一种基于目标变换回归网络的精确目标跟踪方法,包括以下步骤:1)生成训练样例阶段;2)网络的配置阶段;3)离线训练阶段;4)在线跟踪阶段。本发明设计的目标变换回归网络,将待测视频第一帧的目标信息融入待跟踪视频帧的回归分支中,并且在目标框回归中引入了在线更新的机制,实现目标跟踪。相比现有的无锚框跟踪方法,本发明的跟踪方法能对跟踪过程中的物体变形有更好的适应能力,有效地提升目标回归的精度。
-
公开(公告)号:CN114972619A
公开(公告)日:2022-08-30
申请号:CN202110199236.2
申请日:2021-02-22
Applicant: 南京大学
Abstract: 一种基于自对齐双重回归的单图像人脸三维重建方法,包括处理训练数据阶段,网络配置阶段,训练阶段和测试阶段。本发明方法基于注意力机制对人脸未被遮挡区域进行了增强,从而提升了对遮挡的鲁棒性;对三维人脸的姿态和形状进行解耦,单独学习与姿态无关的三维人脸形状回归,提升了人脸重建的精度,削弱了姿态变化的负面影响;将姿态信息编码在作为中间结果的粗糙人脸模型中,并通过自对齐的后处理过程结合估计出的人脸区域可见度提取出人脸姿态,相比于现有单图像人脸三维重建方法中直接回归姿态的方式,本发明对于人脸图像中存在遮挡、姿态变化的情况具有更好的鲁棒性。
-
公开(公告)号:CN114821379A
公开(公告)日:2022-07-29
申请号:CN202110115997.5
申请日:2021-01-28
Applicant: 南京大学
IPC: G06V20/40 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/00 , G06N3/04 , G06N3/08 , G06T3/40 , G06T7/246 , G06T7/269 , G06T9/00 , H04N19/42 , H04N19/44 , H04N19/60
Abstract: 一种基于松弛变换解码器的直接时序动作检测方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测。本发明通过边界增强的特征表示,有效利用全局上下文信息,显著提高生成提名的鲁棒性;利用松弛匹配的策略使网络快速稳定收敛;引入了时间交并比来指导动作提名排序,在有限的预测中,覆盖所有视频中的动作真值,灵活、高效、快速、准确的完成时序动作检测任务。
-
公开(公告)号:CN113837238A
公开(公告)日:2021-12-24
申请号:CN202111026141.7
申请日:2021-09-02
Applicant: 南京大学
Abstract: 一种基于自监督和自蒸馏的长尾图像识别方法,构建多阶段的训练框架训练特征提取网络,第一阶段在长尾分布采样下利用自监督训练特征提取网络,第二阶段在保留第一阶段特征提取网络权重的情况下,在类别平衡采样下微调特征提取网络的分类器,生成用于自蒸馏的软标签,第三阶段丢弃之前的权重,在长尾分布采用下利用软标签作为监督对特征提取网络进行自蒸馏联合训练,得到的特征提取网络用于长尾分布下的图像识别分类。本发明针对长尾数据的特征提取网络提出一种利用自监督和自蒸馏的多阶段训练方法,利用自监督方法对尾部类别得到充分的表征,同时利用自蒸馏的方法将头部类别的知识有效迁移到尾部类别中。
-
公开(公告)号:CN113569605A
公开(公告)日:2021-10-29
申请号:CN202110058983.4
申请日:2021-01-17
Applicant: 南京大学 , 腾讯科技(深圳)有限公司
Abstract: 本公开提供了一种视频信息处理方法,包括:对目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;确定中心图像帧的物体特征向量、层次关系树结构、关系特征向量;确定采样图像帧的物体时序特征向量和关系时序特征向量;根据物体特征向量、关系特征向量、层次关系树结构、物体时序特征向量和采样图像帧的关系时序特征向量,通过视频信息处理模型进行特征向量聚合处理;对采样图像帧中的物体进行分类;确定与目标视频相对应的视频场景图。本公开还提供了信息处理装置、电子设备及存储介质。本公开不但有效压缩视频处理模型的模型结构,减少计算量,同时所生成的场景图的准确率较高,场景图生成速度较快,提升了用户的使用体验。
-
公开(公告)号:CN113538507A
公开(公告)日:2021-10-22
申请号:CN202010293393.5
申请日:2020-04-15
Applicant: 南京大学
Abstract: 本发明提出了一种基于全卷积网络在线训练的目标追踪方法,包括以下步骤:1)生成训练样例阶段;2)网络的配置阶段;3)离线训练阶段;4)在线跟踪阶段;本发明通过设计的完全端到端训练的全卷积网络,采用生成目标分类和目标回归模板来指导分类和回归任务,以及在线更新分类和回归模板的策略,来实现目标追踪任务。本发明通过一个简洁的全卷积网络结构以及对分类和回归模板进行在线优化,获得了鲁棒性强且精度高的单目标跟踪方法。
-
公开(公告)号:CN119887520A
公开(公告)日:2025-04-25
申请号:CN202411724468.5
申请日:2024-11-28
Applicant: 南京大学 , 中移(苏州)软件技术有限公司 , 中国移动通信集团江苏有限公司 , 中国移动通信集团有限公司
IPC: G06T3/4053 , G06T3/4046 , G06F18/213 , G06V10/774 , G06N5/04
Abstract: 一种高分辨率多模态大模型架构的实现方法,实现一种多模态大模型架构,配置用于已有的多模态大模型,用于处理包含高分辨率图像的输入,所述多模态大模型架构对视觉特征提取部分引入局部随机采样机制,并采用分层注入机制将多次随机采样的结果分层注入LLM中。本发明将多次局部随机采样得到的视觉特征划分到LLM的不同层注入,显著减少了LLM在每一层中需要处理的视觉特征,在保证MLLM模型性能前提下,节省了模型训练和推理时的时间开销和显存开销,本发明的局部随机采样机制去除了大量的冗余视觉特征,提高了LLM模型的性能,解决了模型输入高分辨率图像时导致性能下降的问题。
-
公开(公告)号:CN118334558A
公开(公告)日:2024-07-12
申请号:CN202410568280.X
申请日:2024-05-09
Applicant: 南京大学
IPC: G06V20/40 , G06V40/20 , G06V10/62 , G06V10/82 , G06V10/774 , G06V30/19 , G06N3/0464
Abstract: 一种文本引导的视频时序动作分割方法、设备及存储介质,构建一个文本引导的视频时序动作分割模型,包括视频片段编码器、文本编码器、时序骨干网络和分类网络,首先由视频片段编码器提取视频片段特征,经时序骨干网络得到包含全局信息的时序特征,同时文本编码器对起始动作和终止动作的语言描述提取文本特征,将时序特征与文本特征进行时序上的模态对齐,以实现文本特征引导时序动作的分割,同时为了进一步缓解背景干扰带来的过分割问题,将时序特征进行时序上的可学习局部平滑,最后对得到的时序特征由分类得到分割结果。本发明通过标注文本引导的视频时序动作分割框架,增强了对于视频时序特征的约束,改善在强背景干扰下的分割性能。
-
公开(公告)号:CN111209883B
公开(公告)日:2023-08-04
申请号:CN202010032965.4
申请日:2020-01-13
Applicant: 南京大学
IPC: G06V20/40 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/006 , G06N3/045 , G06N3/0464 , G06N3/084
Abstract: 一种基于多源运动特征融合的时序自适应视频分类方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,采用多源多尺度运动信息进行早期融合,融合包括原视频帧序列信息、段内局部帧间差以及全局段间特征差,并在融合过程中实现时序自适应调整策略,完成视频分类任务。本发明在融合多源运动信息的同时,通过时序自适应调整,适配视频分类任务,获得了鲁棒性强且精度高的视频分类方法,提出了融合全局、原有单帧信息、局部运动信息的方式,这种融合位于网络的浅层,使得相比于其他融合策略而言计算更加快速,且具有很好的移植性。
-
公开(公告)号:CN116206175A
公开(公告)日:2023-06-02
申请号:CN202310136678.1
申请日:2023-02-07
Applicant: 浙江网商银行股份有限公司 , 南京大学
IPC: G06V10/774 , G06V10/82 , G06V20/00 , G06N3/0455 , G06N3/0895
Abstract: 本说明书实施例提供一种场景分析模型的预训练方法、场景分析模型的确定方法、场景分析模型的预训练装置、场景分析模型的确定装置、计算机可读存储介质、电子设备以及计算机程序产品,上述场景分析模型包括编码器,上述预训练方法包括:通过多个样本组对编码器进行对比学习,其中每个样本组包括关于相同内容的第一模态图像和第二模态图像;对多个样本组分别进行掩码处理,并通过掩码处理后的样本组对编码器以及解码器进行图像重建学习;从而优化上述编码器的参数,实现对场景分析模型的预训练。
-
-
-
-
-
-
-
-
-