-
公开(公告)号:CN116416429A
公开(公告)日:2023-07-11
申请号:CN202310198997.5
申请日:2023-03-03
Applicant: 南京大学
Abstract: 一种扩大感受野的三维点云场景理解方法、设备及介质,构建线性大核类卷积算子LinK模块作为计算机视觉感知的卷积核,首先由三维点云场景得到体素数据进行特征提取,特征编码器由四个编码器层组成,每个编码器层包括一次降采样层、带残差的稀疏卷积模块和LinK模块,降采样后的特征并行送入带残差的稀疏卷积模块和LinK模块中,各编码器层所得特征相加得到体素特征,用于三维点云场景理解的下游任务,如语义分割或目标检测等。本发明能够与现有方法很好地融合,可以加入到任何基于稀疏卷积的3D场景理解的骨干网络中,实现三维点云场景理解任务中的感知范围扩大同时降低参数量,提升网络在多个下游任务上的性能。
-
公开(公告)号:CN115439923A
公开(公告)日:2022-12-06
申请号:CN202110622809.8
申请日:2021-06-04
Applicant: 南京大学
Abstract: 一种在线端到端的时空动作检测方法及检测器,对输入视频序列直接获得相应的时空动作检测结果,而不需要额外的后处理过程。本发明构建检测网络,网络配置包括特征提取网络、特征缓存区、中心点预测分支、包围框回归分支和序列匹配分支,通过特征提取网络抽取视频帧的高维度抽象特征,使用特征缓存模块缓存视频帧特征,采样后将特征序列分别传入动作中心点预测分支、人体包围框回归分支及序列匹配分支,得到动作实例中心点及人体动作检测框,结合序列匹配形成时空动作检测结果。本发明有效利用视频中蕴含的时序信息进行动作识别,避免重复计算,提升检测效率,在视频时空检测任务上体现了鲁棒性和高效性,并具有很强的移植性和扩展性。
-
公开(公告)号:CN114494314A
公开(公告)日:2022-05-13
申请号:CN202111615241.3
申请日:2021-12-27
Applicant: 南京大学
Abstract: 时序边界检测方法及时序感知器,基于变换解码器结构和注意力机制,建立通用的无类别时序动作检测模型,检测模型的编码器中引入少量隐特征查询量,通过交叉注意力机制将输入特征压缩到固定维度,并使用变换解码器对特征进行解码,实现通用无类别时序边界的稀疏检测。本发明通过特征压缩,有效解决了长视频的时序冗余问题,并将二次模型的复杂度降低到线性级别;构建边界查询量和上下文查询量这两种隐特征查询量,以相应处理视频中语义不连贯的边界区域和连贯的上下文区域,充分利用视频的语义结构;提出基于交叉注意力计算的对齐损失函数,使网络快速稳定收敛;使用变换解码器稀疏编码边界位置,避免复杂后处理,提高模型泛化性能。
-
公开(公告)号:CN111209883A
公开(公告)日:2020-05-29
申请号:CN202010032965.4
申请日:2020-01-13
Applicant: 南京大学
Abstract: 一种基于多源运动特征融合的时序自适应视频分类方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,采用多源多尺度运动信息进行早期融合,融合包括原视频帧序列信息、段内局部帧间差以及全局段间特征差,并在融合过程中实现时序自适应调整策略,完成视频分类任务。本发明在融合多源运动信息的同时,通过时序自适应调整,适配视频分类任务,获得了鲁棒性强且精度高的视频分类方法,提出了融合全局、原有单帧信息、局部运动信息的方式,这种融合位于网络的浅层,使得相比于其他融合策略而言计算更加快速,且具有很好的移植性。
-
公开(公告)号:CN101945257A
公开(公告)日:2011-01-12
申请号:CN201010264070.X
申请日:2010-08-27
Applicant: 南京大学
Abstract: 本发明提供了一种基于监控视频内容提取车辆底盘图像的合成方法,主要包括如下步骤:取帧转为灰度图片,进行预处理操作;形成运动区域不规则多边形;通过面积筛除部分不规则多边形;形成矩形包围盒;w-SIFT算法匹配;计算Y向平均偏移距离;做x方向的拉伸变换;图像拼接以及平滑过渡。本发明的有益效果在于:输入一段车辆底盘监控视频,可自动将其转换为包括该车辆完整底盘描述的单一静态图像,该图像可用于进一步的图像识别等。该方法可节省大量人工拼接图片的时间开销,并显著提高拼接后的效果;得到的结果可以直观反应监控视频所要表达的重要内容。
-
-
-
-