-
公开(公告)号:CN119360243B
公开(公告)日:2025-05-02
申请号:CN202411395067.X
申请日:2024-10-08
Applicant: 中国矿业大学
IPC: G06V20/17 , G06V10/25 , G06V10/82 , G06V10/764 , G06N3/0455 , G06N3/0475
Abstract: 本发明属于计算机视觉技术领域,公开了一种基于场景语言感知引导的多模态无人机目标检测框架。首先,将视觉‑语言预训练模型嵌入多模态目标检测框架中,提出了场景语言感知模块,利用视觉‑语言预训练模型为模型提供场景智能感知和理解能力。其次,通过条件参数生成模块根据当前场景和目标特征动态生成融合参数,通过为不同目标定制个性化的融合模式提升模型对场景变化的适应能力。最后,设计了多模态动态解码器,建立了动态对称融合机制,通过动态挖掘多模态数据间的复杂互补关联实现多模态特征融合,并根据当前场景实时调整不同模态的重要性,将DETR的解码机制从单模态扩展到多模态,为多模态无人机目标检测提供了无需先验框的新范式。
-
公开(公告)号:CN119360243A
公开(公告)日:2025-01-24
申请号:CN202411395067.X
申请日:2024-10-08
Applicant: 中国矿业大学
IPC: G06V20/17 , G06V10/25 , G06V10/82 , G06V10/764 , G06N3/0455 , G06N3/0475
Abstract: 本发明属于计算机视觉技术领域,公开了一种基于场景语言感知引导的多模态无人机目标检测框架。首先,将视觉‑语言预训练模型嵌入多模态目标检测框架中,提出了场景语言感知模块,利用视觉‑语言预训练模型为模型提供场景智能感知和理解能力。其次,通过条件参数生成模块根据当前场景和目标特征动态生成融合参数,通过为不同目标定制个性化的融合模式提升模型对场景变化的适应能力。最后,设计了多模态动态解码器,建立了动态对称融合机制,通过动态挖掘多模态数据间的复杂互补关联实现多模态特征融合,并根据当前场景实时调整不同模态的重要性,将DETR的解码机制从单模态扩展到多模态,为多模态无人机目标检测提供了无需先验框的新范式。
-
公开(公告)号:CN119206188B
公开(公告)日:2025-03-21
申请号:CN202411362174.2
申请日:2024-09-27
Applicant: 中国矿业大学
IPC: G06V10/25 , G06V10/40 , G06V10/764 , G06V10/80 , G06V10/82 , G06V20/58 , G06N3/045 , G06N3/042 , G06N3/096 , G06N3/0455
Abstract: 本发明属于计算机视觉技术领域,本发明公开了一种基于互蒸馏属性融合网络的多模态车辆目标检测框架。首先,提出了基于最优传输理论的跨模态互蒸馏模块,利用红外图像和可见光图像的互补特性,通过跨模态空间知识互蒸馏,抑制多模态噪声干扰;其次,提出了属性分解模块,利用属性路由机制将混杂的多模态全局特征分解为独立的属性特征,并通过最大化属性熵确保了属性特征的多样性;最后,提出了属性图融合模块,独立融合不同模态的对应属性特征,并利用在特征融合过程中为每个类别定制了个性化的属性图,以建模各类目标属性特征之间的关联,从而提升模型对不同类别目标的适应性。
-
公开(公告)号:CN119206188A
公开(公告)日:2024-12-27
申请号:CN202411362174.2
申请日:2024-09-27
Applicant: 中国矿业大学
IPC: G06V10/25 , G06V10/40 , G06V10/764 , G06V10/80 , G06V10/82 , G06V20/58 , G06N3/045 , G06N3/042 , G06N3/096 , G06N3/0455
Abstract: 本发明属于计算机视觉技术领域,本发明公开了一种基于互蒸馏属性融合网络的多模态车辆目标检测框架。首先,提出了基于最优传输理论的跨模态互蒸馏模块,利用红外图像和可见光图像的互补特性,通过跨模态空间知识互蒸馏,抑制多模态噪声干扰;其次,提出了属性分解模块,利用属性路由机制将混杂的多模态全局特征分解为独立的属性特征,并通过最大化属性熵确保了属性特征的多样性;最后,提出了属性图融合模块,独立融合不同模态的对应属性特征,并利用在特征融合过程中为每个类别定制了个性化的属性图,以建模各类目标属性特征之间的关联,从而提升模型对不同类别目标的适应性。
-
-
-