-
公开(公告)号:CN112927245B
公开(公告)日:2022-06-21
申请号:CN202110388605.2
申请日:2021-04-12
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于实例查询的端到端实例分割方法:(1)训练基于实例查询和多层级并行掩码监督的端到端实例分割算法模型,包括以下子步骤:(1.1)对原始数据集中所有图片的感兴趣类别的物体进行实例级别的标注,标签为实例级别的包围框的左上及右下顶点和实例对应的前景掩码,得到带标注的标准训练数据集;(1.2)定义基于实例查询向量以及多层级并行掩码监督的端到端实例分割算法模型,利用反向传播和梯度下降算法训练该基于实例查询向量以及多层级并行掩码监督的端到端实例分割算法模型;(2)利用上述训练好的模型对待识别图片进行实例分割。
-
公开(公告)号:CN118585954A
公开(公告)日:2024-09-03
申请号:CN202410716799.8
申请日:2024-06-04
Applicant: 华中科技大学
IPC: G06F18/25 , G06F18/214 , G06V10/80 , G06V10/774 , G06V10/26
Abstract: 本发明涉及计算机视觉技术领域,提供了一种增强多模态大语言模型视觉感知能力的方法、模型和装置。方法包括:使用第一视觉专家模型对图像进行全景分割,得到全景分割图,使用第二视觉专家模型对图像进行深度预测,得到深度图;根据所述全景分割图和所述深度图,生成视觉元信息;根据所述视觉元信息和用户查询,生成文本特征;其中,所述文本特征包括用户查询中的语义信息和所述视觉元信息中的结构信息;从图像中提取视觉特征,将所述视觉特征和所述文本特征输入至大语言模型中,得到视觉感知结果。本发明通过生成视觉元信息,将视觉元信息与语言模型相结合,从而有效促进视觉感知能力与语言推理能力的深度融合。
-
公开(公告)号:CN112927245A
公开(公告)日:2021-06-08
申请号:CN202110388605.2
申请日:2021-04-12
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于实例查询的端到端实例分割方法:(1)训练基于实例查询和多层级并行掩码监督的端到端实例分割算法模型,包括以下子步骤:(1.1)对原始数据集中所有图片的感兴趣类别的物体进行实例级别的标注,标签为实例级别的包围框的左上及右下顶点和实例对应的前景掩码,得到带标注的标准训练数据集;(1.2)定义基于实例查询向量以及多层级并行掩码监督的端到端实例分割算法模型,利用反向传播和梯度下降算法训练该基于实例查询向量以及多层级并行掩码监督的端到端实例分割算法模型;(2)利用上述训练好的模型对待识别图片进行实例分割。
-
-