-
公开(公告)号:CN118734976B
公开(公告)日:2024-12-17
申请号:CN202411224705.1
申请日:2024-09-03
Applicant: 鹏城实验室
IPC: G06N5/04 , G06N3/0464 , G06N3/08 , G06F18/25 , G06F40/30
Abstract: 本发明公开了一种基于梯度自校准的多模态预训练方法、系统、终端及存储介质,本发明利用混合模态交互网络,让针对于特定模态的与任务无关的损失函数来学习一个统一模态交互模块的梯度,根据不同模态梯度方向间的差异来确定哪些模态间的差异较小;使用这些差异较小的模态数据在共享编码器上面的组合梯度作为构建的正梯度方向,以该梯度方向来修正其余模态梯度的方向;根据修正后的模态梯度方向,将对应模态在该共享编码器上的参数在方向传播更新前,提前进行更新,从而达到平衡模态训练的目的,使用混合transformer网络结构来提取不同模态数据的融合特征,使用模态梯度自校准模块来修正不同模态针对联合编码器的梯度下降方向,提升不同模态融合表征的效果。
-
公开(公告)号:CN118734976A
公开(公告)日:2024-10-01
申请号:CN202411224705.1
申请日:2024-09-03
Applicant: 鹏城实验室
IPC: G06N5/04 , G06N3/0464 , G06N3/08 , G06F18/25 , G06F40/30
Abstract: 本发明公开了一种基于梯度自校准的多模态预训练方法、系统、终端及存储介质,本发明利用混合模态交互网络,让针对于特定模态的与任务无关的损失函数来学习一个统一模态交互模块的梯度,根据不同模态梯度方向间的差异来确定哪些模态间的差异较小;使用这些差异较小的模态数据在共享编码器上面的组合梯度作为构建的正梯度方向,以该梯度方向来修正其余模态梯度的方向;根据修正后的模态梯度方向,将对应模态在该共享编码器上的参数在方向传播更新前,提前进行更新,从而达到平衡模态训练的目的,使用混合transformer网络结构来提取不同模态数据的融合特征,使用模态梯度自校准模块来修正不同模态针对联合编码器的梯度下降方向,提升不同模态融合表征的效果。
-
公开(公告)号:CN119399676A
公开(公告)日:2025-02-07
申请号:CN202411970326.7
申请日:2024-12-30
Applicant: 鹏城实验室
IPC: G06V20/40 , G06V10/30 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请提供了一种基于视频扩散模型的机器臂控制方法以及相关设备,包括:从机器臂动作视频中提取多个样本历史图像轨迹特征以及样本目标图像轨迹特征,进行噪声扩散,得到样本轨迹噪声扩散特征;基于样本历史图像轨迹特征和样本轨迹噪声扩散特征,以样本目标图像关联的噪声扩散特征为训练目标,对预设模型进行训练;将机器臂的当前图像轨迹特征输入至训练好的目标视频扩散模型,以获取扩散得到的多个预测噪声扩散特征,并通过目标视频扩散模型包含的多层级联的动作适配器基于多个预测噪声扩散特征进行特征融合,得到多个预测动作特征,以基于多个预测动作特征对应的动作控制信号进行机器臂控制,从而提高机械臂动作预测以及控制的准确性。
-
-