-
公开(公告)号:CN114972619B
公开(公告)日:2025-01-10
申请号:CN202110199236.2
申请日:2021-02-22
Applicant: 南京大学
IPC: G06T17/00 , G06V40/16 , G06V10/82 , G06N3/0464
Abstract: 一种基于自对齐双重回归的单图像人脸三维重建方法,包括处理训练数据阶段,网络配置阶段,训练阶段和测试阶段。本发明方法基于注意力机制对人脸未被遮挡区域进行了增强,从而提升了对遮挡的鲁棒性;对三维人脸的姿态和形状进行解耦,单独学习与姿态无关的三维人脸形状回归,提升了人脸重建的精度,削弱了姿态变化的负面影响;将姿态信息编码在作为中间结果的粗糙人脸模型中,并通过自对齐的后处理过程结合估计出的人脸区域可见度提取出人脸姿态,相比于现有单图像人脸三维重建方法中直接回归姿态的方式,本发明对于人脸图像中存在遮挡、姿态变化的情况具有更好的鲁棒性。
-
公开(公告)号:CN118799914A
公开(公告)日:2024-10-18
申请号:CN202410769608.4
申请日:2024-06-14
Applicant: 南京大学
IPC: G06V40/10 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/042 , G06N3/0455 , G06N3/084 , G06N3/096
Abstract: 一种联合检测与生成的循环一致性人‑物交互检测方法,由HOI检测器与文生图模型Stable Diffusion构建一个联合训练框架来对HOI检测器进行训练,仅用经过训练的HOI检测器进行人‑物交互检测;所述联合训练框架中,构建循环一致性网络利用Stable Diffusion对HOI检测器提取的特征进行反向操作,来重建恢复原始图像的视觉内容,以提高HOI检测器提取实例特征的质量,同时通过知识蒸馏将Stable Diffusion的特征知识传递给HOI检测器的编码器,并在训练中通过Stable Diffusion对人‑物交互数据进行标签补全和样本扩增。本发明方法能够改善HOI模型的泛化能力,解决了HOI数据集规模较小、数据分布不均匀导致的长尾问题以及标注不完整或缺失的漏标问题,提高检测性能。
-
公开(公告)号:CN118397385A
公开(公告)日:2024-07-26
申请号:CN202410293412.2
申请日:2024-03-14
Applicant: 南京大学 , 南京英麒智能科技有限公司
IPC: G06V10/774 , G06V10/82 , G06V20/40 , G06N3/084
Abstract: 一种基于关键帧采样的多目标跟踪模型训练加速方法,首先,采用混合片段长度策略和关键帧扩展片段采样,预处理得到训练数据;再次,在训练过程当中,基于滑窗得到各帧对数损失值的标准分数,实现视频帧难易度评估;最后,基于难易程度实现关键帧自适应区别化采样,提升训练速度。本发明的采样方式可以在避免设计复杂的采样递增策略的情况下,保证训练数据多样性,提出视频帧难易度评估以及关键帧自适应区别化采样,可以让模型更加注重于数据困难部分的训练,减少多目标跟踪当中数据冗余性的影响,在缩短训练时长的同时,有效提升模型性能。
-
公开(公告)号:CN118154644A
公开(公告)日:2024-06-07
申请号:CN202410333369.8
申请日:2024-03-22
Applicant: 南京大学
IPC: G06T7/246 , G06V10/764 , G06V10/62
Abstract: 基于ID预测网络的在线多目标跟踪方法、设备及存储介质,构建一个ID预测网络,基于历史帧的目标特征及其ID标签以及当前帧的目标特征,预测当前帧目标的ID标签,使不同帧中的多个目标各自对应到一个ID标签,实现不同帧的目标关联,即多目标跟踪。本发明设计的ID预测网络可以根据历史轨迹信息,直接预测当前帧所有目标的ID标签,从而完成多目标跟踪过程中的前后目标和轨迹的关联流程,现有的基于检测的多目标跟踪算法往往对检测结果使用手工设计的启发式算法进行跟踪推理,相比之下,本发明的端到端训练的ID预测网络模块可以更好的直接从数据集中学习所需的多目标跟踪能力,具有更好的泛化能力,显著提升在复杂场景中的跟踪效果。
-
公开(公告)号:CN117218572A
公开(公告)日:2023-12-12
申请号:CN202310961392.7
申请日:2023-07-31
Applicant: 深圳市腾讯计算机系统有限公司 , 南京大学
IPC: G06V20/40
Abstract: 本申请实施例公开了一种时序行为检测方法、装置、设备、介质及程序产品。本申请方法,基于动作查询量,从目标视频帧序列中确定多个关键帧、及多个关键物体,然后通过获取关键物体之间的第一特征相关关系、关键帧之间的第二特征相关关系、及关键帧与所述关键物体之间的第三特征相关关系,更新动作查询量。基于更新后的动作查询量,从目标视频帧序列中重新确定多个目标关键帧,并根据目标关键帧及其在目标视频帧序列中的时序位置,确定目标视频帧序列中目标行为的起始时间、结束时间、及行为类别。本方案中,将空间物体语义引入到行为动作检测,结合空间和时间维度上的语义信息,提升了在面对第一视角场景下时序行为的检测精度。
-
公开(公告)号:CN117095049A
公开(公告)日:2023-11-21
申请号:CN202210518346.5
申请日:2022-05-13
Applicant: 南京大学
Abstract: 一种基于语义关键点检测的单目相机位姿估计方法,在已知的场景中利用深度学习的映射能力离线地学习一个视角下的场景先验,然后在同一个场景但视角不同的视频序列上进行在线相机位姿估计包括两个子系统:语义关键点匹配框架和融合匹配语义点的SLAM框架。本发明在ORB‑SLAM系统的基础上,使用语义关键点匹配框架得到二维到三维的语义匹配点对,改进位姿初始化流程和光束平差法流程,使得融合匹配语义点的SLAM框架能够利用场景先验进行位姿的估计。本发明能够利用场景的先验,显著提高位姿估计的精度的同时也具有很好的鲁棒性,同时也避免了单目SLAM系统的初始化困难问题和尺度不确定性问题。
-
公开(公告)号:CN113837238B
公开(公告)日:2023-09-01
申请号:CN202111026141.7
申请日:2021-09-02
Applicant: 南京大学
IPC: G06V10/764 , G06V10/774 , G06V10/40 , G06V10/82 , G06N3/045 , G06N3/0895
Abstract: 一种基于自监督和自蒸馏的长尾图像识别方法,构建多阶段的训练框架训练特征提取网络,第一阶段在长尾分布采样下利用自监督训练特征提取网络,第二阶段在保留第一阶段特征提取网络权重的情况下,在类别平衡采样下微调特征提取网络的分类器,生成用于自蒸馏的软标签,第三阶段丢弃之前的权重,在长尾分布采用下利用软标签作为监督对特征提取网络进行自蒸馏联合训练,得到的特征提取网络用于长尾分布下的图像识别分类。本发明针对长尾数据的特征提取网络提出一种利用自监督和自蒸馏的多阶段训练方法,利用自监督方法对尾部类别得到充分的表征,同时利用自蒸馏的方法将头部类别的知识有效迁移到尾部类别中。
-
公开(公告)号:CN114694065A
公开(公告)日:2022-07-01
申请号:CN202210293909.5
申请日:2022-03-23
Applicant: 腾讯科技(深圳)有限公司 , 南京大学
Abstract: 本申请实施例公开了一种视频处理方法、装置、计算机设备及存储介质,可应用于计算机视觉、云技术、智慧交通、辅助驾驶等场景。其中方法包括:获取待处理的目标视频数据;调用视频处理模型的编码器对目标视频数据进行处理,得到目标视频数据的特征表示信息;该编码器是基于样本视频数据包括的多帧图像以及预设遮蔽策略进行预训练得到的;该预设遮蔽策略包括相邻图像的遮蔽规则相同,且遮蔽比率大于或等于预设比值;基于视频处理模型和目标视频数据的特征表示信息,确定目标视频数据的处理结果。采用本申请实施例,通过使用基于预设遮蔽策略训练得到的编码器,可准确高效的提取出视频数据的特征表示信息,从而准确的确定视频数据的处理结果。
-
公开(公告)号:CN101945257B
公开(公告)日:2012-03-28
申请号:CN201010264070.X
申请日:2010-08-27
Applicant: 南京大学
Abstract: 本发明提供了一种基于监控视频内容提取车辆底盘图像的合成方法,主要包括如下步骤:取帧转为灰度图片,进行预处理操作;形成运动区域不规则多边形;通过面积筛除部分不规则多边形;形成矩形包围盒;w-SIFT算法匹配;计算Y向平均偏移距离;做x方向的拉伸变换;图像拼接以及平滑过渡。本发明的有益效果在于:输入一段车辆底盘监控视频,可自动将其转换为包括该车辆完整底盘描述的单一静态图像,该图像可用于进一步的图像识别等。该方法可节省大量人工拼接图片的时间开销,并显著提高拼接后的效果;得到的结果可以直观反应监控视频所要表达的重要内容。
-
公开(公告)号:CN119785258A
公开(公告)日:2025-04-08
申请号:CN202411749287.8
申请日:2024-12-02
Applicant: 南京大学 , 中国移动通信有限公司研究院 , 中国移动通信集团有限公司 , 中国移动通信集团江苏有限公司
Abstract: 一种基于迭代式分层关键帧选取的长视频理解方法,首先对输入的视频进行层次化帧采样,得到层次化的视觉特征,然后由一个关键帧查询模块对视频帧的第N层视觉特征与输入的问题文本,结合上下文语义进行视频关键帧查询生成查询向量,预测是否足以对输入的问题生成回答,如果不满足,则在帧率更高的第N+1层视觉特征中更新查询关键帧,再次与输入的问题文本结合上下文语义进行关键帧的迭代查询,直至足以对问题生成回答,将查询得到的关键帧与指令或问题输入多模态大模型生成理解结果。本发明基于用户输入问题对视频帧进行查询并筛选出关联的帧,进而提升长视频理解的性能和效率,在文娱、安防、教育等场景中有着广泛的应用前景。
-
-
-
-
-
-
-
-
-