一种视觉大模型的参数高效微调方法

    公开(公告)号:CN118410853A

    公开(公告)日:2024-07-30

    申请号:CN202410547805.1

    申请日:2024-05-06

    Applicant: 南开大学

    Inventor: 于洋 许宸 王恺

    Abstract: 本发明公开了一种视觉大模型的参数高效微调方法,包括:设计卷积侧适配器,通过堆叠卷积侧适配器模块逐层抽取SAM图像编码器提取的图像特征;设计多尺度精化模块,用于构建层次特征表示;设计特征融合解码器,用于融合卷积侧适配器模块和多尺度精化模块输出的层次特征表示和卷积侧适配器分支特征,在解码过程中融合不同尺度特征,得到细化分割结果;通过损失函数进行梯度反向传播,更新卷积侧适配器,多尺度精化模块和特征融合解码器三个模块的参数能。本发明在伪装目标检测、显著物体检测与阴影检测三个领域的公开数据集上大幅度领先于同类型的SAM微调模型;同时维持了所有参与微调的模块的低参数量,降低了计算成本和存储成本。

Patent Agency Ranking