-
公开(公告)号:CN111832393A
公开(公告)日:2020-10-27
申请号:CN202010471931.5
申请日:2020-05-29
Applicant: 东南大学
Abstract: 本发明公开了一种基于深度学习的视频目标检测方法与装置。本发明在提取帧图像特征后,利用改进的SeqtoSeq模型提取视频中的时序信息,并利用该信息提高帧图像的特征质量,在一定程度上解决目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低问题。然后,对视频中的目标关系进行建模,从目标视觉特征、位置特征和时序特征三方面挖掘视频中目标之间潜在语义关系,并通过目标关系对候选框特征进行重新编码,以此丰富候选框的特征表示。本发明不仅能够提高视频目标检测的检测精度,同时还具有优良的鲁棒性。
-
公开(公告)号:CN111832393B
公开(公告)日:2024-05-07
申请号:CN202010471931.5
申请日:2020-05-29
Applicant: 东南大学
IPC: G06V10/25 , G06V20/40 , G06V10/44 , G06V10/80 , G06V10/764 , G06V10/766 , G06V10/82 , G06N3/0464 , G06N3/0442 , G06N3/0455 , G06N3/048
Abstract: 本发明公开了一种基于深度学习的视频目标检测方法与装置。本发明在提取帧图像特征后,利用改进的SeqtoSeq模型提取视频中的时序信息,并利用该信息提高帧图像的特征质量,在一定程度上解决目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低问题。然后,对视频中的目标关系进行建模,从目标视觉特征、位置特征和时序特征三方面挖掘视频中目标之间潜在语义关系,并通过目标关系对候选框特征进行重新编码,以此丰富候选框的特征表示。本发明不仅能够提高视频目标检测的检测精度,同时还具有优良的鲁棒性。
-