-
公开(公告)号:CN118279807B
公开(公告)日:2024-08-20
申请号:CN202410698099.0
申请日:2024-05-31
Applicant: 大连理工大学 , 大连理工大学宁波研究院
IPC: G06V20/40 , G06V10/44 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本发明属于机器学习、多模态、目标跟踪领域,公开了一种基于提示学习的视觉语言目标跟踪方法。本发明使用提示学习的方式,将语言作为提示信息,用语言的提示信息完成多模态数据的混合,在训练的过程中冻结视觉基础模型,一方面这样能保留在大规模跟踪数据集上训练得到的知识,另一方面能够减轻训练负担。本发明通过设计的提示引导机制,将语言信息与视觉信息在通道上进行对齐,这样可以减小两个模态之间信息的差异。
-
公开(公告)号:CN118279807A
公开(公告)日:2024-07-02
申请号:CN202410698099.0
申请日:2024-05-31
Applicant: 大连理工大学 , 大连理工大学宁波研究院
IPC: G06V20/40 , G06V10/44 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本发明属于机器学习、多模态、目标跟踪领域,公开了一种基于提示学习的视觉语言目标跟踪方法。本发明使用提示学习的方式,将语言作为提示信息,用语言的提示信息完成多模态数据的混合,在训练的过程中冻结视觉基础模型,一方面这样能保留在大规模跟踪数据集上训练得到的知识,另一方面能够减轻训练负担。本发明通过设计的提示引导机制,将语言信息与视觉信息在通道上进行对齐,这样可以减小两个模态之间信息的差异。
-