-
公开(公告)号:CN118097520A
公开(公告)日:2024-05-28
申请号:CN202410517099.6
申请日:2024-04-28
Applicant: 鹏城实验室
IPC: G06V20/40 , G06V10/40 , G06V10/764 , G06V10/74
Abstract: 本申请实施例提供了一种视觉识别模型测试时自适应方法、装置、设备及介质,属于计算机视觉技术领域。该方法包括:获取目标域不同模态下的多个第一视频片段和多个第二视频片段;通过第一视觉识别模型分别对多个第一视频片段进行视觉识别,得到对应的多个第一识别结果,综合多个第一识别结果建立不同模态下各个类别的伪源特征;通过第二视觉识别模型分别对多个第二视频片段进行视觉识别,得到对应的多个第二识别结果,综合多个第二识别结果建立不同模态下各个类别的目标特征;将目标特征与相同类别下的伪源特征进行特征对齐,并对第二视觉识别模型进行自适应调整,得到自适应调整后的第二视觉识别模型。本申请能够提高视觉识别模型识别的准确率。
-
公开(公告)号:CN119377679A
公开(公告)日:2025-01-28
申请号:CN202411943704.2
申请日:2024-12-27
Applicant: 鹏城实验室
IPC: G06F18/214 , G06N20/00
Abstract: 本申请实施例提供一种模型训练方法、装置、存储介质及计算机设备,包括:获取指定设备发送的多模态语言模型中任务视觉适配器及语言模型的聚合参数,依语言模型聚合参数更新本地语言模型,筛选出本地目标任务视觉适配器的目标聚合参数并更新。接着构建任务混合适配器,将目标任务视觉适配器替换,其包含概率预测器、各任务适配器及待训练跨任务适配器。最后通过本地样本数据集对任务混合适配器中的概率预测器、目标任务视觉适配器和语言模型进行训练,以此得到训练后的多模态语言模型。通过训练概率预测器与跨任务适配器来适配不同任务,让多模态模型能学到各任务特有的模式与特征,进而提升模型性能。
-
公开(公告)号:CN117975472B
公开(公告)日:2024-06-21
申请号:CN202410382411.5
申请日:2024-04-01
Applicant: 鹏城实验室
IPC: G06V30/18 , G06T7/80 , G06F40/289 , G06V10/82 , G06N3/048 , G06N3/0464
Abstract: 本申请实施例提供了物体定位方法、装置、设备及介质,通过在前向过程从层级的角度整合多层级的文本表征和图像表征,实现多模态自适应;在反向过程中,在冻结图像编码器深层的网络层组的权重矩阵的情况下,先更新浅层的网络层组的低秩矩阵并冻结浅层的网络层组的权重矩阵,逐步增加网络层组,在每次增加网络层组后重复更新低秩矩阵的过程;通过层级解耦,使图像编码器的学习率在不同适应阶段产生变化,保证图像编码器逐渐从浅层特征适应到深层特征,实现细粒度的跨模态特征的交互和对齐,通过逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距。
-
公开(公告)号:CN118734091B
公开(公告)日:2024-11-12
申请号:CN202411220270.3
申请日:2024-09-02
Applicant: 鹏城实验室
IPC: G06F18/22 , G06N3/0455 , G06N3/096 , G06V10/26 , G06F40/284 , G06F18/27
Abstract: 本申请提供了一种基于掩码指代建模的视觉定位和指代分割方法、系统、设备以及存储介质,方法包括通过多模态编码器获得预训练图像与文本的视觉词元、聚合视觉词元、文本词元、聚合文本词元,并应用指代感知的动态图像掩码策略,基于文本指代的图像区域对预训练图像进行掩码,并根据视觉词元和聚合文本词元对掩码图像块以及视觉目标关联分数进行重建;应用指代感知的文本掩码策略,基于预训练文本的指代主语对预训练文本进行掩码,并根据文本词元和聚合视觉词元对掩码文本词以及语义目标关联分数进行重建,以使模型学习到通用的指代能力,进而可以使模型针对视觉定位和指代分割任务进行下游微调,以得到高精度的定位或者指代分割结果。
-
公开(公告)号:CN118133992B
公开(公告)日:2024-08-13
申请号:CN202410571692.9
申请日:2024-05-10
Applicant: 鹏城实验室
IPC: G06N20/00 , G06F18/213 , G06F18/24 , G06F18/214
Abstract: 本申请实施例提供了一种模型训练方法、对象识别方法、电子设备及可读存储介质,属于活动识别技术领域。该模型训练方法包括:获取对象数据和对象数据关联的样本标签;基于特征提取器对对象数据进行特征提取得到活动识别模态特征,活动识别模态特征包括第一模态特征和第二模态特征;基于重建模块对活动识别模态特征进行模态重构得到关系感知重构特征;基于混合分类模块对关系感知重构特征和活动识别模态特征进行分类预测处理,得到预测分类标签;根据重构损失、分类损失和全局训练参数对初始模型进行训练处理,得到训练后的目标模型。本申请实施例能够提高多模态联邦学习的性能和鲁棒性,提高对象识别的准确性。
-
公开(公告)号:CN118133992A
公开(公告)日:2024-06-04
申请号:CN202410571692.9
申请日:2024-05-10
Applicant: 鹏城实验室
IPC: G06N20/00 , G06F18/213 , G06F18/24 , G06F18/214
Abstract: 本申请实施例提供了一种模型训练方法、对象识别方法、电子设备及可读存储介质,属于活动识别技术领域。该模型训练方法包括:获取对象数据和对象数据关联的样本标签;基于特征提取器对对象数据进行特征提取得到活动识别模态特征,活动识别模态特征包括第一模态特征和第二模态特征;基于重建模块对活动识别模态特征进行模态重构得到关系感知重构特征;基于混合分类模块对关系感知重构特征和活动识别模态特征进行分类预测处理,得到预测分类标签;根据重构损失、分类损失和全局训练参数对初始模型进行训练处理,得到训练后的目标模型。本申请实施例能够提高多模态联邦学习的性能和鲁棒性,提高对象识别的准确性。
-
公开(公告)号:CN119479082B
公开(公告)日:2025-04-22
申请号:CN202510067424.8
申请日:2025-01-16
Applicant: 鹏城实验室
IPC: G06V40/20 , G06V20/50 , G06V20/40 , G06V10/30 , G06V10/62 , G06V10/764 , G06V10/774 , G06V10/77 , G06V10/75 , G06V10/82 , G06N3/0455 , G06N3/0895 , G06N3/047
Abstract: 本申请公开了小样本动作识别方法、电子设备及介质,方法包括:获取支持集视频、查询集视频以及类别标签模板;通过预设的多模态训练模型对支持集视频、查询集视频以及类别标签模板进行特征处理,得到第一视觉特征向量、类级别语义特征以及第二视觉特征向量;将上述三个数据输入代理语义扩散模块进行噪声扩散处理;对代理语义扩散模块输出的第一实例级代理语义、类级别语义特征以及第一视觉特征向量进行特征表示以构建类别原型,并对第二实例级代理语义进行特征融合,得到查询特征表示;对查询特征表示以及类别原型进行动作识别,以确定查询集视频中第二动作视频帧的动作种类。本发明实施例能够捕捉实例级别的语义细节,提高动作识别精度。
-
公开(公告)号:CN119479082A
公开(公告)日:2025-02-18
申请号:CN202510067424.8
申请日:2025-01-16
Applicant: 鹏城实验室
IPC: G06V40/20 , G06V20/50 , G06V20/40 , G06V10/30 , G06V10/62 , G06V10/764 , G06V10/774 , G06V10/77 , G06V10/75 , G06V10/82 , G06N3/0455 , G06N3/0895 , G06N3/047
Abstract: 本申请公开了小样本动作识别方法、电子设备及介质,方法包括:获取支持集视频、查询集视频以及类别标签模板;通过预设的多模态训练模型对支持集视频、查询集视频以及类别标签模板进行特征处理,得到第一视觉特征向量、类级别语义特征以及第二视觉特征向量;将上述三个数据输入代理语义扩散模块进行噪声扩散处理;对代理语义扩散模块输出的第一实例级代理语义、类级别语义特征以及第一视觉特征向量进行特征表示以构建类别原型,并对第二实例级代理语义进行特征融合,得到查询特征表示;对查询特征表示以及类别原型进行动作识别,以确定查询集视频中第二动作视频帧的动作种类。本发明实施例能够捕捉实例级别的语义细节,提高动作识别精度。
-
公开(公告)号:CN117975472A
公开(公告)日:2024-05-03
申请号:CN202410382411.5
申请日:2024-04-01
Applicant: 鹏城实验室
IPC: G06V30/18 , G06T7/80 , G06F40/289 , G06V10/82 , G06N3/048 , G06N3/0464
Abstract: 本申请实施例提供了物体定位方法、装置、设备及介质,通过在前向过程从层级的角度整合多层级的文本表征和图像表征,实现多模态自适应;在反向过程中,在冻结图像编码器深层的网络层组的权重矩阵的情况下,先更新浅层的网络层组的低秩矩阵并冻结浅层的网络层组的权重矩阵,逐步增加网络层组,在每次增加网络层组后重复更新低秩矩阵的过程;通过层级解耦,使图像编码器的学习率在不同适应阶段产生变化,保证图像编码器逐渐从浅层特征适应到深层特征,实现细粒度的跨模态特征的交互和对齐,通过逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距。
-
公开(公告)号:CN119377679B
公开(公告)日:2025-04-01
申请号:CN202411943704.2
申请日:2024-12-27
Applicant: 鹏城实验室
IPC: G06F18/214 , G06N20/00
Abstract: 本申请实施例提供一种模型训练方法、装置、存储介质及计算机设备,包括:获取指定设备发送的多模态语言模型中任务视觉适配器及语言模型的聚合参数,依语言模型聚合参数更新本地语言模型,筛选出本地目标任务视觉适配器的目标聚合参数并更新。接着构建任务混合适配器,将目标任务视觉适配器替换,其包含概率预测器、各任务适配器及待训练跨任务适配器。最后通过本地样本数据集对任务混合适配器中的概率预测器、目标任务视觉适配器和语言模型进行训练,以此得到训练后的多模态语言模型。通过训练概率预测器与跨任务适配器来适配不同任务,让多模态模型能学到各任务特有的模式与特征,进而提升模型性能。
-
-
-
-
-
-
-
-
-