-
公开(公告)号:CN117670932A
公开(公告)日:2024-03-08
申请号:CN202311599496.4
申请日:2023-11-28
Applicant: 中国电子科技南湖研究院
IPC: G06T7/246 , G06V10/22 , G06V10/25 , G06V10/42 , G06V10/62 , G06V10/764 , G06V10/774 , G06V10/82 , G06F18/22 , G06F40/30
Abstract: 本发明提出一种语义感知的自监督目标跟踪方法及装置,首先,利用SAM和CLIP分别获得全局语义特征、当前帧边界框和对应的视觉特征;然后,利用多头注意力机制计算提示词文本‑历史轨迹和当前帧图像检测框这三者之间的联合特征;最后,构建预测头和损失函数实现自监督的精确目标位置预测和边界框回归。本发明利用文本语义特征来提升视觉跟踪性能,从而增强目标跟踪的灵活性和通用性,同时结合自监督机制,利用多模态数据之间的相关性为算法提供监督信息,打破单模态信息载体的局限性,使系统能够在没有标签数据的情况下学习有效的特征表示,进一步提高目标跟踪的性能。