-
公开(公告)号:CN116343006A
公开(公告)日:2023-06-27
申请号:CN202310269544.7
申请日:2023-03-20
Applicant: 南京大学
IPC: G06V10/82 , G06N3/0495 , G06N3/045 , G06N3/048 , G06N3/096
Abstract: 基于知识蒸馏的渐进式跟踪模型压缩方法、设备及介质,通过知识蒸馏方式,以教师模型‑助教模型‑学生模型多级蒸馏,并在蒸馏中通过动态的衰退系数来逐渐削弱直至撤除需要撤去的层,实现渐进式压缩单流跟踪模型,得到轻量化的跟踪器FOST,所述单流跟踪模型基于Transformer,对于输入的模板和搜索图片同时进行特征提取和信息融合。本发明通过渐进式的撤去层数和助教网络,克服了Transformer模型深度压缩过程中的特征不匹配和不连续问题,有效地传递教师模型信息,本发明提出的跟踪器也因此能够同时须有高精度和高速度,并首次使单流跟踪器能够在CPU上部署。
-
公开(公告)号:CN115392449A
公开(公告)日:2022-11-25
申请号:CN202110566905.5
申请日:2021-05-24
Applicant: 南京大学
IPC: G06N3/08 , G06N3/04 , G06V10/80 , G06V10/774 , G06V10/82
Abstract: 一种基于点云数据的自监督学习场景流方法,利用点云数据本身的特性来构建数据项约束与平滑项约束,用这两种约束来评估两帧点云的相似性,并以此误差来训练一个的自监督网络,用于得到场景流。本发明利用点云数据内部的约束来评估运动后的第二帧点云与预测的第二帧点云的相似性,从而预测出场景流,相比现在的方法,或利用有标签的点云数据进行有监督的学习,或通过具有深度信息的2.5D或3D图像数据把2D光流转换到3D中来解决这个问题,本发明直接消费点云数据并用自监督的深度学习方法学习场景流。本发明方法很好的考虑了点云数据本身的特性,对此建立起数据项约束;除此之外本发明也考虑了场景级点云数据局部的刚体性,建立了平滑项约束。
-
公开(公告)号:CN115239970A
公开(公告)日:2022-10-25
申请号:CN202110435066.3
申请日:2021-04-22
Applicant: 南京大学
IPC: G06V10/44 , G06V10/764 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 一种基于自监督的RGB‑D特征学习方法,包括以下步骤:1)处理训练样例阶段;2)网络配置阶段;3)训练阶段;4)测试阶段。本发明设计的自监督设计框架将Depth和RGB进行有效结合,通过对比学习和生成学习迫使自监督模型学习模态之间的共享信息,从而获得有效的特征表示,更好的服务下游任务。相比现在的方法使用RGB预训练模型初始化Depth分支模型存在模态差异,以及使用像素级约束存在样本分布不均匀等问题。本发明通过自监督学习以及对比学习等方式有效地融合Depth和RGB信息,并避免了这类问题。
-
公开(公告)号:CN114863088A
公开(公告)日:2022-08-05
申请号:CN202210319585.8
申请日:2022-03-29
Applicant: 南京大学
IPC: G06V10/25 , G06V10/764 , G06V10/776 , G06V10/82 , G06N3/04
Abstract: 一种面向长尾目标检测的分类对数归一化方法,目标检测中,对分类器的预测分布使用归一化的方式执行矫正,具体为利用分类器已有的分类输出的分类对数计算统计量,来归一化分类网络最终激活值,自我纠正有偏差的预测结果。尤其适用于长尾目标检测。本发明方法是免训练和免调参的,与具体目标检测模型和分布无关,是即插即用的。本发明方法同时在长尾目标检测和分类任务上展现了有效性和通用性,在现有的极具挑战性的长尾目标检测数据集LVIS 1.0上,本发明方法在多种检测器设置下,所有标准指标均超过了现有最好模型。本发明方法也在长尾分类数据集ImageNet‑LT上取得了较好的效果。
-
公开(公告)号:CN114821774A
公开(公告)日:2022-07-29
申请号:CN202210404413.0
申请日:2022-04-18
Applicant: 南京大学
IPC: G06V40/20 , G06V20/40 , G06V10/44 , G06V10/764 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 一种基于无锚框技术的时序动作检测方法及检测器,构建网络检测视频中的时序动作,包括特征提取网络、时序特征金字塔、边界偏移回归器、实例感知对齐模块和细化分类回归器,特征提取网络提取视频的时空特征,时序特征金字塔获得不同时间分辨率的特征,边界偏移回归器对每一个时序位置预测该时刻相对动作左右边界的距离,再经过变换得到动作起止时间,实例感知对齐模块根据动作起止时间获取用于精细预测的动作特征,细化分类回归器用于预测动作类别和微调动作边界,得到时序动作检测结果。本发明直接回归距离动作左右边界的距离,完成视频中动作的时序定位和分类任务,相比于现有带锚框的检测器,无需预先设置锚框,更加简单高效。
-
公开(公告)号:CN114818819A
公开(公告)日:2022-07-29
申请号:CN202210493558.2
申请日:2022-05-07
Applicant: 南京大学
Abstract: 一种基于毫米波雷达与视觉信号的道路障碍物检测方法,通过毫米波雷达及视觉传感器检测道路前方障碍物,通过融合毫米波雷达与视觉图像两种信号,检测目标物体类别,首先将毫米波雷达信号预处理,将毫米波雷达报文转化为目标点位置的形式,并与视觉图像信号进行时间同步;将毫米波雷达目标点根据坐标匹配关系映射于视觉图像信号之上,实现两种模态的融合;对映射到视觉图像信号上的毫米波雷达信息进行目标检测,最后对检测结果进行尺度估计,细化障碍物信息。本发明实现了多模态细粒度障碍物检测,相比传统单模态方法具有精确度与运行效率上的优势,具备高度实用价值。
-
公开(公告)号:CN114550040A
公开(公告)日:2022-05-27
申请号:CN202210152336.4
申请日:2022-02-18
Applicant: 南京大学
IPC: G06V20/40 , G06K9/62 , G06N3/04 , G06N3/08 , G06V10/774 , G06V10/764 , G06V10/82
Abstract: 一种基于混合注意力机制的端到端单目标跟踪方法,构建一个基于Transformer跟踪的跟踪框架MixFormer,用于目标跟踪,跟踪框架的构建包括以下步骤:1)数据准备阶段;2)网络配置阶段;3)离线训练阶段;4)在线跟踪阶段。本发明采用了基于混合注意力的骨干网络来同时进行特征提取与目标信息融合,得到了一个简洁清晰的跟踪框架,并且能有效地提升性能。此外,本发明的跟踪方法能对跟踪过程中的物体变形有更好的适应能力,有效地提升目标回归的精度。
-
公开(公告)号:CN113792594A
公开(公告)日:2021-12-14
申请号:CN202110912484.7
申请日:2021-08-10
Applicant: 南京大学
Abstract: 一种基于对比学习的视频中语言片段定位方法及装置,建立一个对比与兼容匹配网络来建模句子和视频片段的关系,对比与兼容匹配网络首先对句子和视频提取自然语言特征和视频片段特征,然后将两种特征均分别映射到两组联合建模空间里,两组联合建模空间对应的映射函数参数不相同,在联合建模空间使用余弦相似度计算两种特征的相似度;分别使用对比学习损失函数和二分类交叉熵损失函数来监督训练网络;对待定位的视频片段和自然语言语句,输入训练好的对比与兼容匹配网络,得到两组联合建模空间中的相似度,计算得到定位置信度,由定位置信度确定最终定位结果。本发明完整利用语言和视觉的双向监督信号,从而大幅提升视频中的语言片段时序定位的效果。
-
公开(公告)号:CN111259779A
公开(公告)日:2020-06-09
申请号:CN202010033743.4
申请日:2020-01-13
Applicant: 南京大学
Abstract: 一种基于中心点轨迹预测的视频动作检测方法,在视频时空动作检测中,将每个动作实例视为动作发起者中心点移动的轨迹,轨迹由中间帧动作的中心点和其他帧动作的中心点相对于中间帧中心点的运动矢量来表示,首先对视频帧序列提取特征,得到中间帧的中心点位置预测及动作类别预测,然后得到中间帧的中心点到其他帧中心点运动轨迹,最后生成各帧中心点的检测框,即得到位置定位,由此得到动作的类别和定位结果,完成视频片段上的时空检测任务。本发明提出了一种无锚框的视频动作检测方法,在视频中沿时序上完成动作的时空定位和分类任务,相比于现有技术带锚框的视频动作检测更加精简高效,体现了鲁棒性和高效性,同时具有很强的扩展性和移植性。
-
公开(公告)号:CN111242033A
公开(公告)日:2020-06-05
申请号:CN202010032964.X
申请日:2020-01-13
Applicant: 南京大学
Abstract: 一种基于视频和文字描述对判别的视频特征学习方法,将视频及与视频匹配的文字描述构成视频-文字对,采用三维卷积网络提取视频特征,采用DistilBERT网络提取文字描述特征,通过训练使视频和其对应的文字描述具有相似的语义特征,使得文字描述自动成为对应视频的标签,训练构建深度学习网络,用于对视频特征的学习。本发明提出了一种利用文字描述信息作为辅助信息进行视频特征学习的方法,能够有效减少人力成本的同时学习到高效的视频特征表示,利用视频和文字描述进行判别化的方法进行视频特征学习的方法,能够更加有效得利用数据集中的所有数据,得到更加具有判别力的视频表征。
-
-
-
-
-
-
-
-
-