视觉识别模型测试时自适应方法、装置、设备及介质

    公开(公告)号:CN118097520A

    公开(公告)日:2024-05-28

    申请号:CN202410517099.6

    申请日:2024-04-28

    Abstract: 本申请实施例提供了一种视觉识别模型测试时自适应方法、装置、设备及介质,属于计算机视觉技术领域。该方法包括:获取目标域不同模态下的多个第一视频片段和多个第二视频片段;通过第一视觉识别模型分别对多个第一视频片段进行视觉识别,得到对应的多个第一识别结果,综合多个第一识别结果建立不同模态下各个类别的伪源特征;通过第二视觉识别模型分别对多个第二视频片段进行视觉识别,得到对应的多个第二识别结果,综合多个第二识别结果建立不同模态下各个类别的目标特征;将目标特征与相同类别下的伪源特征进行特征对齐,并对第二视觉识别模型进行自适应调整,得到自适应调整后的第二视觉识别模型。本申请能够提高视觉识别模型识别的准确率。

    基于掩码指代建模的视觉定位和指代分割方法、系统、设备以及存储介质

    公开(公告)号:CN118734091B

    公开(公告)日:2024-11-12

    申请号:CN202411220270.3

    申请日:2024-09-02

    Abstract: 本申请提供了一种基于掩码指代建模的视觉定位和指代分割方法、系统、设备以及存储介质,方法包括通过多模态编码器获得预训练图像与文本的视觉词元、聚合视觉词元、文本词元、聚合文本词元,并应用指代感知的动态图像掩码策略,基于文本指代的图像区域对预训练图像进行掩码,并根据视觉词元和聚合文本词元对掩码图像块以及视觉目标关联分数进行重建;应用指代感知的文本掩码策略,基于预训练文本的指代主语对预训练文本进行掩码,并根据文本词元和聚合视觉词元对掩码文本词以及语义目标关联分数进行重建,以使模型学习到通用的指代能力,进而可以使模型针对视觉定位和指代分割任务进行下游微调,以得到高精度的定位或者指代分割结果。

    模型训练方法、对象识别方法、电子设备及可读存储介质

    公开(公告)号:CN118133992B

    公开(公告)日:2024-08-13

    申请号:CN202410571692.9

    申请日:2024-05-10

    Abstract: 本申请实施例提供了一种模型训练方法、对象识别方法、电子设备及可读存储介质,属于活动识别技术领域。该模型训练方法包括:获取对象数据和对象数据关联的样本标签;基于特征提取器对对象数据进行特征提取得到活动识别模态特征,活动识别模态特征包括第一模态特征和第二模态特征;基于重建模块对活动识别模态特征进行模态重构得到关系感知重构特征;基于混合分类模块对关系感知重构特征和活动识别模态特征进行分类预测处理,得到预测分类标签;根据重构损失、分类损失和全局训练参数对初始模型进行训练处理,得到训练后的目标模型。本申请实施例能够提高多模态联邦学习的性能和鲁棒性,提高对象识别的准确性。

    模型训练方法、对象识别方法、电子设备及可读存储介质

    公开(公告)号:CN118133992A

    公开(公告)日:2024-06-04

    申请号:CN202410571692.9

    申请日:2024-05-10

    Abstract: 本申请实施例提供了一种模型训练方法、对象识别方法、电子设备及可读存储介质,属于活动识别技术领域。该模型训练方法包括:获取对象数据和对象数据关联的样本标签;基于特征提取器对对象数据进行特征提取得到活动识别模态特征,活动识别模态特征包括第一模态特征和第二模态特征;基于重建模块对活动识别模态特征进行模态重构得到关系感知重构特征;基于混合分类模块对关系感知重构特征和活动识别模态特征进行分类预测处理,得到预测分类标签;根据重构损失、分类损失和全局训练参数对初始模型进行训练处理,得到训练后的目标模型。本申请实施例能够提高多模态联邦学习的性能和鲁棒性,提高对象识别的准确性。

    模型训练方法、装置、存储介质及计算机设备

    公开(公告)号:CN119377679B

    公开(公告)日:2025-04-01

    申请号:CN202411943704.2

    申请日:2024-12-27

    Abstract: 本申请实施例提供一种模型训练方法、装置、存储介质及计算机设备,包括:获取指定设备发送的多模态语言模型中任务视觉适配器及语言模型的聚合参数,依语言模型聚合参数更新本地语言模型,筛选出本地目标任务视觉适配器的目标聚合参数并更新。接着构建任务混合适配器,将目标任务视觉适配器替换,其包含概率预测器、各任务适配器及待训练跨任务适配器。最后通过本地样本数据集对任务混合适配器中的概率预测器、目标任务视觉适配器和语言模型进行训练,以此得到训练后的多模态语言模型。通过训练概率预测器与跨任务适配器来适配不同任务,让多模态模型能学到各任务特有的模式与特征,进而提升模型性能。

    基于掩码指代建模的视觉定位和指代分割方法、系统、设备以及存储介质

    公开(公告)号:CN118734091A

    公开(公告)日:2024-10-01

    申请号:CN202411220270.3

    申请日:2024-09-02

    Abstract: 本申请提供了一种基于掩码指代建模的视觉定位和指代分割方法、系统、设备以及存储介质,方法包括通过多模态编码器获得预训练图像与文本的视觉词元、聚合视觉词元、文本词元、聚合文本词元,并应用指代感知的动态图像掩码策略,基于文本指代的图像区域对预训练图像进行掩码,并根据视觉词元和聚合文本词元对掩码图像块以及视觉目标关联分数进行重建;应用指代感知的文本掩码策略,基于预训练文本的指代主语对预训练文本进行掩码,并根据文本词元和聚合视觉词元对掩码文本词以及语义目标关联分数进行重建,以使模型学习到通用的指代能力,进而可以使模型针对视觉定位和指代分割任务进行下游微调,以得到高精度的定位或者指代分割结果。

    视觉识别模型测试时自适应方法、装置、设备及介质

    公开(公告)号:CN118097520B

    公开(公告)日:2024-07-23

    申请号:CN202410517099.6

    申请日:2024-04-28

    Abstract: 本申请实施例提供了一种视觉识别模型测试时自适应方法、装置、设备及介质,属于计算机视觉技术领域。该方法包括:获取目标域不同模态下的多个第一视频片段和多个第二视频片段;通过第一视觉识别模型分别对多个第一视频片段进行视觉识别,得到对应的多个第一识别结果,综合多个第一识别结果建立不同模态下各个类别的伪源特征;通过第二视觉识别模型分别对多个第二视频片段进行视觉识别,得到对应的多个第二识别结果,综合多个第二识别结果建立不同模态下各个类别的目标特征;将目标特征与相同类别下的伪源特征进行特征对齐,并对第二视觉识别模型进行自适应调整,得到自适应调整后的第二视觉识别模型。本申请能够提高视觉识别模型识别的准确率。

    物体检测分割方案
    8.
    发明授权

    公开(公告)号:CN117893766B

    公开(公告)日:2024-07-02

    申请号:CN202410272880.1

    申请日:2024-03-11

    Abstract: 本申请实施例提供了物体检测分割方案,通过在训练物体检测分割模型的反向过程中,为预训练权重矩阵添加低秩矩阵作为训练参数,在维持特征提取网络深层的网络层组的预训练权重矩阵不变的情况下,先更新浅层的网络层组的低秩矩阵并维持浅层的网络层组的预训练权重矩阵不变,随后逐步增加网络层组,并在每次增加网络层组后重复更新低秩矩阵的过程,本申请通过层级解耦使得特征提取网络的学习率在不同适应阶段发生变化,避免了网络梯度从深层传播到浅层;利用层级结构逐步自适应预训练作为骨干的特征提取网络,能够更好地实现多级视觉表征的细粒度区域特征的感知,有利于在检测和分割任务上达到更加精准的性能。

    物体检测分割方案
    9.
    发明公开

    公开(公告)号:CN117893766A

    公开(公告)日:2024-04-16

    申请号:CN202410272880.1

    申请日:2024-03-11

    Abstract: 本申请实施例提供了物体检测分割方案,通过在训练物体检测分割模型的反向过程中,为预训练权重矩阵添加低秩矩阵作为训练参数,在维持特征提取网络深层的网络层组的预训练权重矩阵不变的情况下,先更新浅层的网络层组的低秩矩阵并维持浅层的网络层组的预训练权重矩阵不变,随后逐步增加网络层组,并在每次增加网络层组后重复更新低秩矩阵的过程,本申请通过层级解耦使得特征提取网络的学习率在不同适应阶段发生变化,避免了网络梯度从深层传播到浅层;利用层级结构逐步自适应预训练作为骨干的特征提取网络,能够更好地实现多级视觉表征的细粒度区域特征的感知,有利于在检测和分割任务上达到更加精准的性能。

    视觉问答方法、系统、电子设备及存储介质

    公开(公告)号:CN117271818B

    公开(公告)日:2024-03-01

    申请号:CN202311559297.0

    申请日:2023-11-22

    Abstract: 本申请实施例提供了一种视觉问答方法、系统、电子设备及存储介质,属于计算机视觉技术领域。该方法包括:获取目标图像,以及对应的自然语言问题;基于目标图像和自然语言问题,在预设的知识图谱中进行知识检索,得到候选知识;并基于目标图像和自然语言问题进行关联查询,得到相应的隐式知识,并基于隐式知识得到目标问题;之后,将目标问题对应的文本特征和图像对应的目标图像特征拼接,得到多模态查询信息;再之后,根据多模态查询信息和候选知识进行注意力机制融合处理,得到细粒度信息;最后,将多模态查询信息与细粒度信息进行特征融合,得到目标特征信息,并基于目标特征信息进行查询,得到目标答案。本申请能够提高视觉问

Patent Agency Ranking