物体定位方法、装置、设备及介质

    公开(公告)号:CN117975472A

    公开(公告)日:2024-05-03

    申请号:CN202410382411.5

    申请日:2024-04-01

    Abstract: 本申请实施例提供了物体定位方法、装置、设备及介质,通过在前向过程从层级的角度整合多层级的文本表征和图像表征,实现多模态自适应;在反向过程中,在冻结图像编码器深层的网络层组的权重矩阵的情况下,先更新浅层的网络层组的低秩矩阵并冻结浅层的网络层组的权重矩阵,逐步增加网络层组,在每次增加网络层组后重复更新低秩矩阵的过程;通过层级解耦,使图像编码器的学习率在不同适应阶段产生变化,保证图像编码器逐渐从浅层特征适应到深层特征,实现细粒度的跨模态特征的交互和对齐,通过逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距。

    模型训练方法、装置、存储介质及计算机设备

    公开(公告)号:CN119377679A

    公开(公告)日:2025-01-28

    申请号:CN202411943704.2

    申请日:2024-12-27

    Abstract: 本申请实施例提供一种模型训练方法、装置、存储介质及计算机设备,包括:获取指定设备发送的多模态语言模型中任务视觉适配器及语言模型的聚合参数,依语言模型聚合参数更新本地语言模型,筛选出本地目标任务视觉适配器的目标聚合参数并更新。接着构建任务混合适配器,将目标任务视觉适配器替换,其包含概率预测器、各任务适配器及待训练跨任务适配器。最后通过本地样本数据集对任务混合适配器中的概率预测器、目标任务视觉适配器和语言模型进行训练,以此得到训练后的多模态语言模型。通过训练概率预测器与跨任务适配器来适配不同任务,让多模态模型能学到各任务特有的模式与特征,进而提升模型性能。

    物体定位方法、装置、设备及介质

    公开(公告)号:CN117975472B

    公开(公告)日:2024-06-21

    申请号:CN202410382411.5

    申请日:2024-04-01

    Abstract: 本申请实施例提供了物体定位方法、装置、设备及介质,通过在前向过程从层级的角度整合多层级的文本表征和图像表征,实现多模态自适应;在反向过程中,在冻结图像编码器深层的网络层组的权重矩阵的情况下,先更新浅层的网络层组的低秩矩阵并冻结浅层的网络层组的权重矩阵,逐步增加网络层组,在每次增加网络层组后重复更新低秩矩阵的过程;通过层级解耦,使图像编码器的学习率在不同适应阶段产生变化,保证图像编码器逐渐从浅层特征适应到深层特征,实现细粒度的跨模态特征的交互和对齐,通过逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距。

    视觉问答方法、系统、电子设备及存储介质

    公开(公告)号:CN117271818A

    公开(公告)日:2023-12-22

    申请号:CN202311559297.0

    申请日:2023-11-22

    Abstract: 本申请实施例提供了一种视觉问答方法、系统、电子设备及存储介质,属于计算机视觉技术领域。该方法包括:获取目标图像,以及对应的自然语言问题;基于目标图像和自然语言问题,在预设的知识图谱中进行知识检索,得到候选知识;并基于目标图像和自然语言问题进行关联查询,得到相应的隐式知识,并基于隐式知识得到目标问题;之后,将目标问题对应的文本特征和图像对应的目标图像特征拼接,得到多模态查询信息;再之后,根据多模态查询信息和候选知识进行注意力机制融合处理,得到细粒度信息;最后,将多模态查询信息与细粒度信息进行特征融合,得到目标特征信息,并基于目标特征信息进行查询,得到目标答案。本申请能够提高视觉问答的准确性。

    一种多模态视觉语言理解与定位方法、装置、终端及介质

    公开(公告)号:CN116091836A

    公开(公告)日:2023-05-09

    申请号:CN202310152704.X

    申请日:2023-02-09

    Abstract: 本发明公开了一种多模态视觉语言理解与定位方法、装置、终端及介质,包括:构建视觉语言理解与定位模型;对未标注的图像数据进行处理,生成多个伪标签源;分别学习每一个源的视觉语言理解与定位模型;根据多源自步自适应算法,依据每一个源的表达文本的平均实体数由易到难逐步选择全部伪数据源;根据所述多源自步自适应算法,对图像和伪标签的每个配对数据进行样本实例级可靠性计算,通过可靠性评估器选择、可靠性阈值选择以及贪心算法获得最优样本子集,根据最优样本子集学习最优的视觉语言理解与定位模型;本发明提出无监督的视觉语言理解与定位方法,可以基于多源伪标签对多模态基础大模型CLIP进行自适应,以解决无监督视觉定位的问题。

Patent Agency Ranking