-
公开(公告)号:CN116385928A
公开(公告)日:2023-07-04
申请号:CN202310307390.6
申请日:2023-03-27
Applicant: 南京大学
IPC: G06V20/40 , G06V40/20 , G06V10/40 , G06V10/25 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/08 , G06F16/9537 , G06N3/0455
Abstract: 基于自适应解码器的时空动作检测方法、设备及介质,构建一个时空动作检测器OSD,首先将查询解耦为空间查询和时间查询;其次,对于视频骨干网络提取的全局视频特征,通过解码器自适应地根据空间查询的语义信息在全局视频特征上进行采样得到人物RoI特征;再次,RoI特征与时空查询分别进行自适应的特征混合,实现查询更新;最后,更新后的查询使用分类网络,同时获得人物位置框提名与对应的动作类别概率向量。本发明结合了查询定义与自适应解码器技术,能够提升基于查询的时空动作检测器的检测性能,在时空动作检测任务上具有自适应性强、检测流程直接、查询建模高效、检测结果准确等特点。
-
公开(公告)号:CN115170605A
公开(公告)日:2022-10-11
申请号:CN202210673885.6
申请日:2022-06-15
Applicant: 南京大学
Abstract: 本发明提出了一种基于多模态交互和多阶段优化的实时RGBT目标跟踪方法,跟踪模型包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块;利用公开的RGBT数据集对跟踪模型进行训练,包括离线训练和在线训练两个阶段。本发明构建多模态交互模块学习鲁棒的特征表达,改善跨模态特征之间的注意力计算方式,实现两种模态的互补增强,通过引入门控函数,有效去除冗余噪声的影响;构建多阶段优化模块结合光流算法和优化模型实现跟踪结目标的精确重定位,有效缓解相机抖动、局部遮挡等因素造成的影响,提升跟踪模型的鲁棒性和实时性。
-
公开(公告)号:CN115115667A
公开(公告)日:2022-09-27
申请号:CN202110289022.4
申请日:2021-03-18
Applicant: 南京大学
Abstract: 一种基于目标变换回归网络的精确目标跟踪方法,包括以下步骤:1)生成训练样例阶段;2)网络的配置阶段;3)离线训练阶段;4)在线跟踪阶段。本发明设计的目标变换回归网络,将待测视频第一帧的目标信息融入待跟踪视频帧的回归分支中,并且在目标框回归中引入了在线更新的机制,实现目标跟踪。相比现有的无锚框跟踪方法,本发明的跟踪方法能对跟踪过程中的物体变形有更好的适应能力,有效地提升目标回归的精度。
-
公开(公告)号:CN114972619A
公开(公告)日:2022-08-30
申请号:CN202110199236.2
申请日:2021-02-22
Applicant: 南京大学
Abstract: 一种基于自对齐双重回归的单图像人脸三维重建方法,包括处理训练数据阶段,网络配置阶段,训练阶段和测试阶段。本发明方法基于注意力机制对人脸未被遮挡区域进行了增强,从而提升了对遮挡的鲁棒性;对三维人脸的姿态和形状进行解耦,单独学习与姿态无关的三维人脸形状回归,提升了人脸重建的精度,削弱了姿态变化的负面影响;将姿态信息编码在作为中间结果的粗糙人脸模型中,并通过自对齐的后处理过程结合估计出的人脸区域可见度提取出人脸姿态,相比于现有单图像人脸三维重建方法中直接回归姿态的方式,本发明对于人脸图像中存在遮挡、姿态变化的情况具有更好的鲁棒性。
-
公开(公告)号:CN114913414A
公开(公告)日:2022-08-16
申请号:CN202210423216.3
申请日:2022-04-21
Applicant: 南京大学
IPC: G06V20/10 , G06N3/04 , G06N3/08 , G06V10/774 , G06V10/82
Abstract: 一种基于混合卷积残差结构的视觉目标检测方法及装置,以目标检测网络CenterNet构建视觉检测模型,以混合空洞卷积残差网络HDResNet作为视觉检测模型的主干网络,采用图像训练集对视觉检测模型进行训练,训练集中的图像中包括不同视觉距离的目标,训练得到的模型用于输入图像中不同视觉距离的目标同时进行视觉检测。本发明的基于混合卷积视觉目标检测方法实现轮胎吊防撞,在近、中、远距离具有较高的综合检测精度及检测速度。
-
公开(公告)号:CN114821609A
公开(公告)日:2022-07-29
申请号:CN202210497442.6
申请日:2022-05-09
Applicant: 南京大学
Abstract: 一种基于几何先验和知识图谱的自然场景文本识别方法,采集领域场景文本图像,检测并裁出文本行图像,通过基于几何先验的形变矫正模型进行特征提取和柱状形变矫正;对矫正图通过基于注意力机制的视觉识别模块感知每个字符得到字符级别的对齐视觉纹理特征;再通过基于领域知识图谱的的全局语义推理模块引入场景领域知识,感知上下文信息,并编码高层语义特征;最后综合视觉和语义模块的输出得到文本识别结果。本发明可迁移应用于自控仪表、装备制造、数控机床、汽车制造、轨道交通等不同面向领域的自然场景文本识别,解决传统文本识别技术在自然场景中因柱面文本形变和缺乏相关词典而识别准确率不高的问题,实现对领域文本更精准的识别。
-
公开(公告)号:CN114821379A
公开(公告)日:2022-07-29
申请号:CN202110115997.5
申请日:2021-01-28
Applicant: 南京大学
IPC: G06V20/40 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/00 , G06N3/04 , G06N3/08 , G06T3/40 , G06T7/246 , G06T7/269 , G06T9/00 , H04N19/42 , H04N19/44 , H04N19/60
Abstract: 一种基于松弛变换解码器的直接时序动作检测方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测。本发明通过边界增强的特征表示,有效利用全局上下文信息,显著提高生成提名的鲁棒性;利用松弛匹配的策略使网络快速稳定收敛;引入了时间交并比来指导动作提名排序,在有限的预测中,覆盖所有视频中的动作真值,灵活、高效、快速、准确的完成时序动作检测任务。
-
公开(公告)号:CN113936236A
公开(公告)日:2022-01-14
申请号:CN202111116334.1
申请日:2021-09-23
Applicant: 南京大学
IPC: G06V20/40 , G06V40/10 , G06V40/16 , G06V10/25 , G06V10/26 , G06V10/46 , G06V10/764 , G06K9/62 , G06F40/211 , G06F40/295 , G06F40/30
Abstract: 一种基于多模态特征的视频实体关系及交互识别方法,对影片中实体之间的交互进行预测识别:对影片根据场景划分为中片段,对中片段分别向上聚合为长片段,向下分割为短片段,对于每个中片段,将提取的实体特征、实体对特征、视频片段特征、音频特征和文字特征进行拼接作为该片段的融合特征,取平均作为长片段的特征预测长片段中的实体关系,并将该平均特征连接到每一个中片段特征,用于预测对应的中片段中的实体之间的互动,实体关系和实体互动同时进行预测,并联合训练对应的识别网络。本发明将长视频分为三种长度的视频,对长片段预测实体关系,对中片段预测实体交互和场景状态,对短片段预测实体交互,构建出实体关系图和互动图。
-
公开(公告)号:CN113837238A
公开(公告)日:2021-12-24
申请号:CN202111026141.7
申请日:2021-09-02
Applicant: 南京大学
Abstract: 一种基于自监督和自蒸馏的长尾图像识别方法,构建多阶段的训练框架训练特征提取网络,第一阶段在长尾分布采样下利用自监督训练特征提取网络,第二阶段在保留第一阶段特征提取网络权重的情况下,在类别平衡采样下微调特征提取网络的分类器,生成用于自蒸馏的软标签,第三阶段丢弃之前的权重,在长尾分布采用下利用软标签作为监督对特征提取网络进行自蒸馏联合训练,得到的特征提取网络用于长尾分布下的图像识别分类。本发明针对长尾数据的特征提取网络提出一种利用自监督和自蒸馏的多阶段训练方法,利用自监督方法对尾部类别得到充分的表征,同时利用自蒸馏的方法将头部类别的知识有效迁移到尾部类别中。
-
公开(公告)号:CN113569605A
公开(公告)日:2021-10-29
申请号:CN202110058983.4
申请日:2021-01-17
Applicant: 南京大学 , 腾讯科技(深圳)有限公司
Abstract: 本公开提供了一种视频信息处理方法,包括:对目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;确定中心图像帧的物体特征向量、层次关系树结构、关系特征向量;确定采样图像帧的物体时序特征向量和关系时序特征向量;根据物体特征向量、关系特征向量、层次关系树结构、物体时序特征向量和采样图像帧的关系时序特征向量,通过视频信息处理模型进行特征向量聚合处理;对采样图像帧中的物体进行分类;确定与目标视频相对应的视频场景图。本公开还提供了信息处理装置、电子设备及存储介质。本公开不但有效压缩视频处理模型的模型结构,减少计算量,同时所生成的场景图的准确率较高,场景图生成速度较快,提升了用户的使用体验。
-
-
-
-
-
-
-
-
-