基于朴素VisionTransformer的弱监督语义分割方法与装置

    公开(公告)号:CN116071553A

    公开(公告)日:2023-05-05

    申请号:CN202310160328.9

    申请日:2023-02-16

    Abstract: 本发明公开了一种基于朴素Vision Transformer的弱监督语义分割方法,包括:将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出;然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM,并从编码器的模型参数中提取出自注意力图;接着通过自适应注意力图融合模块对自注意力图进行融合,得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM;最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化;基于梯度截断解码器的在线再训练。本发明还提供了相应的基于朴素Vision Transformer的弱监督语义分割装置。

    增强多模态大语言模型视觉感知能力的方法、模型和装置

    公开(公告)号:CN118585954A

    公开(公告)日:2024-09-03

    申请号:CN202410716799.8

    申请日:2024-06-04

    Abstract: 本发明涉及计算机视觉技术领域,提供了一种增强多模态大语言模型视觉感知能力的方法、模型和装置。方法包括:使用第一视觉专家模型对图像进行全景分割,得到全景分割图,使用第二视觉专家模型对图像进行深度预测,得到深度图;根据所述全景分割图和所述深度图,生成视觉元信息;根据所述视觉元信息和用户查询,生成文本特征;其中,所述文本特征包括用户查询中的语义信息和所述视觉元信息中的结构信息;从图像中提取视觉特征,将所述视觉特征和所述文本特征输入至大语言模型中,得到视觉感知结果。本发明通过生成视觉元信息,将视觉元信息与语言模型相结合,从而有效促进视觉感知能力与语言推理能力的深度融合。

Patent Agency Ranking