-
公开(公告)号:CN114494314B
公开(公告)日:2025-05-06
申请号:CN202111615241.3
申请日:2021-12-27
Applicant: 南京大学
IPC: G06T7/13 , G06F16/75 , G06N3/0455
Abstract: 时序边界检测方法及时序感知器,基于变换解码器结构和注意力机制,建立通用的无类别时序动作检测模型,检测模型的编码器中引入少量隐特征查询量,通过交叉注意力机制将输入特征压缩到固定维度,并使用变换解码器对特征进行解码,实现通用无类别时序边界的稀疏检测。本发明通过特征压缩,有效解决了长视频的时序冗余问题,并将二次模型的复杂度降低到线性级别;构建边界查询量和上下文查询量这两种隐特征查询量,以相应处理视频中语义不连贯的边界区域和连贯的上下文区域,充分利用视频的语义结构;提出基于交叉注意力计算的对齐损失函数,使网络快速稳定收敛;使用变换解码器稀疏编码边界位置,避免复杂后处理,提高模型泛化性能。
-
公开(公告)号:CN117218572A
公开(公告)日:2023-12-12
申请号:CN202310961392.7
申请日:2023-07-31
Applicant: 深圳市腾讯计算机系统有限公司 , 南京大学
IPC: G06V20/40
Abstract: 本申请实施例公开了一种时序行为检测方法、装置、设备、介质及程序产品。本申请方法,基于动作查询量,从目标视频帧序列中确定多个关键帧、及多个关键物体,然后通过获取关键物体之间的第一特征相关关系、关键帧之间的第二特征相关关系、及关键帧与所述关键物体之间的第三特征相关关系,更新动作查询量。基于更新后的动作查询量,从目标视频帧序列中重新确定多个目标关键帧,并根据目标关键帧及其在目标视频帧序列中的时序位置,确定目标视频帧序列中目标行为的起始时间、结束时间、及行为类别。本方案中,将空间物体语义引入到行为动作检测,结合空间和时间维度上的语义信息,提升了在面对第一视角场景下时序行为的检测精度。
-
公开(公告)号:CN117274851A
公开(公告)日:2023-12-22
申请号:CN202211261919.7
申请日:2022-10-14
Applicant: 腾讯科技(深圳)有限公司 , 南京大学
IPC: G06V20/40 , G06V40/20 , G06V10/82 , G06V10/40 , G06V10/764 , G06V10/774 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种视频处理方法、视频检测模型训练方法、装置及介质,获取初始查询向量信息、多个初始查询点信息和视频特征信息,对根据初始查询点信息得到的视频帧特征信息进行计算得到对应的查询点特征信息,根据各个查询点特征信息对各个初始查询点信息进行更新得到多个目标查询点信息,根据初始查询向量信息和所有查询点特征信息得到目标查询向量信息,根据目标查询向量信息识别时序行为的目标行为类别,根据所有目标查询点信息的视频帧时序确定目标行为类别所对应的起始时间和结束时间。本发明实施例能够提高对视频中时序行为的检测准确性。本发明实施例可应用于例如视频审核、视频剪辑、视频素材提取、视频标注等各种场景的视频处理技术中。
-
公开(公告)号:CN114494314A
公开(公告)日:2022-05-13
申请号:CN202111615241.3
申请日:2021-12-27
Applicant: 南京大学
Abstract: 时序边界检测方法及时序感知器,基于变换解码器结构和注意力机制,建立通用的无类别时序动作检测模型,检测模型的编码器中引入少量隐特征查询量,通过交叉注意力机制将输入特征压缩到固定维度,并使用变换解码器对特征进行解码,实现通用无类别时序边界的稀疏检测。本发明通过特征压缩,有效解决了长视频的时序冗余问题,并将二次模型的复杂度降低到线性级别;构建边界查询量和上下文查询量这两种隐特征查询量,以相应处理视频中语义不连贯的边界区域和连贯的上下文区域,充分利用视频的语义结构;提出基于交叉注意力计算的对齐损失函数,使网络快速稳定收敛;使用变换解码器稀疏编码边界位置,避免复杂后处理,提高模型泛化性能。
-
公开(公告)号:CN114821379B
公开(公告)日:2024-03-22
申请号:CN202110115997.5
申请日:2021-01-28
Applicant: 南京大学
IPC: G06V20/40 , G06V10/764 , G06V10/82 , G06N3/006 , G06N3/0455 , G06N3/0499 , G06N3/084 , G06T3/4038 , G06T7/246 , G06T7/269 , G06T9/00 , H04N19/42 , H04N19/44 , H04N19/60
Abstract: 一种基于松弛变换解码器的直接时序动作检测方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测。本发明通过边界增强的特征表示,有效利用全局上下文信息,显著提高生成提名的鲁棒性;利用松弛匹配的策略使网络快速稳定收敛;引入了时间交并比来指导动作提名排序,在有限的预测中,覆盖所有视频中的动作真值,灵活、高效、快速、准确的完成时序动作检测任务。
-
公开(公告)号:CN114821379A
公开(公告)日:2022-07-29
申请号:CN202110115997.5
申请日:2021-01-28
Applicant: 南京大学
IPC: G06V20/40 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/00 , G06N3/04 , G06N3/08 , G06T3/40 , G06T7/246 , G06T7/269 , G06T9/00 , H04N19/42 , H04N19/44 , H04N19/60
Abstract: 一种基于松弛变换解码器的直接时序动作检测方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测。本发明通过边界增强的特征表示,有效利用全局上下文信息,显著提高生成提名的鲁棒性;利用松弛匹配的策略使网络快速稳定收敛;引入了时间交并比来指导动作提名排序,在有限的预测中,覆盖所有视频中的动作真值,灵活、高效、快速、准确的完成时序动作检测任务。
-
-
-
-
-