-
公开(公告)号:CN119580001A
公开(公告)日:2025-03-07
申请号:CN202411743524.X
申请日:2024-11-30
Applicant: 北京工业大学
Abstract: 本发明公开了基于视觉语义提示协作的泛化零样本学习方法,借助类语义信息识别可见和不可见类别的图像,其中类属性和文本描述被广泛用于将知识从可见类转移到新颖类;包括步骤一:浅层的弱提示融合;步骤二:深层的强提示融合;步骤三:视觉提示发散损失和语义蒸馏损失优化;该方法设计视觉提示来整合内部视觉信息以进行判别特征学习,并设计一种语义提示来整合外部语义形成以进行视觉语义对齐。针对网络中的不同层次设计了弱提示融合机制和强提示融合机制,通过视觉提示和语义提示的协作,可以获得语义丰富的特征,用于广义零样本图像识别。大量实验表明,该方法框架在传统零样本学习和广义的零样本学习基准中始终取得优异的性能。
-
公开(公告)号:CN119251548A
公开(公告)日:2025-01-03
申请号:CN202411243579.4
申请日:2024-09-05
Applicant: 北京工业大学
IPC: G06V10/764 , G06V10/774 , G06V10/778 , G06N5/04 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于隐属性增强网络的小样本类增量学习方法,本方法将隐属性应用到小样本图像数据的泛化中,运用自注意力机制和隐属性记忆模块,对图像中的可泛化信息进行捕捉,将此信息作为可学习的隐属性。之后构建隐属性记忆池,运用从基类中学习到的隐属性,实现对新类图像识别的泛化。与现有的小样本类增量学习方法相比,基于隐属性增强网络的小样本类增量学习方法能提高分类准确率并且提高识别新类的泛化能力,对于新类的泛化能力优于传统的小样本类增量学习方法。
-
公开(公告)号:CN117935248A
公开(公告)日:2024-04-26
申请号:CN202410100558.0
申请日:2024-01-24
Applicant: 北京工业大学
Abstract: 本发明公开了一种基于实例对齐顺序融合的3D目标检测方法,融合实例对象序列特征以提升当前帧的检测效果。首先,利用BEV(鸟瞰视角)特征提取器提取每帧点云的3D位置信息,并将其转变为BEV特征图,以便后续目标对齐。然后,可学习的目标对齐模块将当前帧候选框“传递”到先前帧上并编码生成先前帧候选框。其中时序融合中心头模块用来减轻特征未对齐误差并生成当前帧候选框;而跨帧交叉注意力利用运动一致性规律,将目标框传递到先前BEV特征图上,并融合局部相关信息编码为候选框特征。最后,通过时间聚合单元,实现目标候选框特征序列间的交互,以优化最终目标特征。
-
公开(公告)号:CN117494790A
公开(公告)日:2024-02-02
申请号:CN202311411252.9
申请日:2023-10-29
Applicant: 北京工业大学
IPC: G06N3/096 , G06N3/0442 , G06V10/82 , G06V10/764 , G06V10/96
Abstract: 本发明公开了基于多层次知识蒸馏类增量学习方法,通过粗粒度知识蒸馏和细粒度蒸馏来保留先前的知识。粗粒度蒸馏的目标是在图像样本之间保留结构层次的信息,从而在图像特征空间中保留图像样本之间的邻居关系。细粒度蒸馏的目标是记忆图像样本的激活值,从而在增量学习阶段保留图像样本级别的信息。通过结合粗粒度和细粒度的知识,本发明提出的基于多层次知识蒸馏类增量学习的图像分类模型在增量学习任务中取得了更好的性能,并有效地减轻了灾难性遗忘现象。
-
公开(公告)号:CN120070933A
公开(公告)日:2025-05-30
申请号:CN202411917928.6
申请日:2024-12-24
Applicant: 北京工业大学
IPC: G06V10/764 , G06V10/774 , G06V10/82
Abstract: 本发明公开了一种渐进式提示集成网络的类增量学习方法,该网络逐步在不同层次上融合全局提示和任务提示,适应增量学习任务,其中任务提示通过投票策略协助图像识别。此外,通过度量学习机制优化了提示查询策略,提高了提示选择准确率,通过调整提示键,以准确选择任务提示。在两个基准数据集上进行了大量实验,与现有的类增量学习方法相比,渐进式提示集成网络的类增量学习方法进一步提高了图像分类准确率。
-
公开(公告)号:CN115984372A
公开(公告)日:2023-04-18
申请号:CN202211492369.X
申请日:2022-11-25
Applicant: 北京工业大学
IPC: G06T7/73 , G06V10/40 , G06F40/30 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了基于多层注意力的视觉定位方法,该方法基于三个模块实现:1)属性注意模块:提取目标对象的细粒度的属性信息;2)上下文注意模块:提取目标对象的周围环境信息;3)匹配模块:结合上两个模块提取到的视觉信息与文本信息匹配找到目标对象。根据文本指导编码与文本语义信息一致的视觉信息来与文本更好的匹配,其包括局部注意力与全局注意力,局部注意力通过跨模态交互提取目标对象细粒度的属性信息;全局注意力通过建立文本为指导的图卷积模型抽取目标对象的上下文信息。两个注意力的结合可以全方位的抽取不同角度的视觉信息,来与文本信息更好的匹配。
-
-
-
-
-