手部骨骼姿态估计与动作识别模型训练方法、识别方法和设备

    公开(公告)号:CN117975563A

    公开(公告)日:2024-05-03

    申请号:CN202410169399.X

    申请日:2024-02-06

    Abstract: 本申请提供手部骨骼姿态估计与动作识别模型训练方法、识别方法和设备,涉及图像处理技术领域,训练方法包括:基于手部图像数据和关键点二维坐标集合将图注意力网络训练为二维手部骨骼姿态估计模型;采用手部图像数据的关键点二维坐标集合估计结果、关键点三维坐标集合和手部动作类型标签训练医学图像分割模型和动作识别网络,得到三维手部骨骼姿态估计模型和手部动作识别模型。本申请通过采用图注意力网络,能够有效地利用手部图像数据的结构信息,并能够提高手部图像数据的结构信息利用的灵活性及可靠性,能够提高训练得到的手部骨骼姿态估计及动作识别模型的性能和泛化能力,进而能够提高采用该模型进行手部骨骼姿态估计及动作识别的准确性。

    一种基于条件扩散的不完全多模态感知数据恢复方法及系统

    公开(公告)号:CN119337074B

    公开(公告)日:2025-04-29

    申请号:CN202411894324.4

    申请日:2024-12-20

    Abstract: 本发明提供一种基于条件扩散的不完全多模态感知数据恢复方法及系统,该方法的步骤包括:实时感知多个模态的数据的接收情况,判定是否存在至少一个模态的数据的缺失;基于缺失数据的模态的历史数据构建高斯过程,基于所述高斯过程构建条件分布,从条件分布中进行采样,得到时间相关性矩阵;判定缺失数据的模态缺失数据的时间段,从未缺失数据的模态中获取对应时间段的数据,构建每个对应每个未缺失数据的模态的特征矩阵,对多个模态的特征矩阵进行融合,得到语义一致性矩阵;将条件分布的数据、时间相关性矩阵和语义一致性矩阵输入到预设置的特征恢复模型中,所述特征恢复模型输出对应缺失数据的模态的缺失数据的恢复特征矩阵。

    一种基于扩散模型的手部检测和三维姿态估计方法及系统

    公开(公告)号:CN117894072B

    公开(公告)日:2024-09-24

    申请号:CN202410070427.2

    申请日:2024-01-17

    Abstract: 本发明提供一种基于扩散模型的手部检测和三维姿态估计方法及系统,所述方法的步骤包括:将待检测图像输入到第一扩散模型中,第一扩散模型对待检测图像中的手部区域添加边界框;基于边界框对所述待检测图像进行裁剪,将裁剪图像输入到第二扩散模型中,第二扩散模型对在裁剪图像标记手部的第一关节点;基于第一关节点的位置确定手部的各个骨骼长度和各个骨骼的骨骼旋转角度;基于骨骼长度和骨骼的骨骼旋转角度确定每个第一关节点对应的轴角,计算每个第一关节点对应的旋转矩阵;基于每个第一关节点的关节路线,对该关节路线上的第一关节点对应的旋转矩阵进行计算,将第一关节点对应转化为第二关节点;基于所述第二关节点的坐标数据构建手部图像。

    视频动作定位模型训练方法、视频动作定位方法和系统

    公开(公告)号:CN116310966B

    公开(公告)日:2023-12-19

    申请号:CN202310174096.2

    申请日:2023-02-23

    Abstract: 本申请提供视频动作定位模型训练方法、视频动作定位方法和系统,方法包括:将视频样本中视频片段对应的片段特征输入分类器,以输出视频样本的第一动作定位结果数据;采用注意力机制在各个视频片段的片段特征之间分别针对每个视频样本内部以及相同类别的各个视频样本之间进行信息交互,并基于信息交互结果生成视频样本的第二动作定位结果数据;将该结果数据作为伪标签对第一动作定位结果数据进行监督以对分类器进行模型训练。本申请能够保留视频样本中更丰富的信息,能够生成更准确的伪标签来监督模型训练,进而能够有效提高训练得到的视频动作定位模型的性能以及采用视频动作定位模型进行视频动作定位的结果准确性及可靠性。

    视频动作定位模型训练方法、视频动作定位方法和系统

    公开(公告)号:CN116310966A

    公开(公告)日:2023-06-23

    申请号:CN202310174096.2

    申请日:2023-02-23

    Abstract: 本申请提供视频动作定位模型训练方法、视频动作定位方法和系统,方法包括:将视频样本中视频片段对应的片段特征输入分类器,以输出视频样本的第一动作定位结果数据;采用注意力机制在各个视频片段的片段特征之间分别针对每个视频样本内部以及相同类别的各个视频样本之间进行信息交互,并基于信息交互结果生成视频样本的第二动作定位结果数据;将该结果数据作为伪标签对第一动作定位结果数据进行监督以对分类器进行模型训练。本申请能够保留视频样本中更丰富的信息,能够生成更准确的伪标签来监督模型训练,进而能够有效提高训练得到的视频动作定位模型的性能以及采用视频动作定位模型进行视频动作定位的结果准确性及可靠性。

    一种三维人体骨骼姿态估计方法及模型训练方法

    公开(公告)号:CN119741422A

    公开(公告)日:2025-04-01

    申请号:CN202411772724.8

    申请日:2024-12-04

    Abstract: 本发明提出一种三维人体骨骼姿态估计方法及模型训练方法,四类模态数据输入特征提取模块,提取四类特征经模态间特征融合模块融合后输入三维坐标估计模块输出三维人体骨骼姿态预测值;每一轮迭代训练三维人体骨骼姿态估计模型时基于夏普利值法计算单模态贡献度值并划分模态类别;当前批次样本进行模拟训练,不同模态类别噪声模态数据分别拟合,模拟训练的均方根误差建立两个高斯分布,均值较高者对应的噪声数据去除后的当前批次样本训练三维人体骨骼姿态估计模型,基于预测值和真实值的均方根误差和可塑权重巩固损失构建联合损失更新三维人体骨骼姿态估计模型参数,不同模态对应特征提取模块参数按照预设权重分别融合初始特征提取模块参数。

    一种自动驾驶视频问答方法、模型训练方法及系统

    公开(公告)号:CN119740658A

    公开(公告)日:2025-04-01

    申请号:CN202411772723.3

    申请日:2024-12-04

    Abstract: 本发明提供一种自动驾驶视频问答方法、模型训练方法及系统,训练样本集对初始自动驾驶问答模型进行训练,每个样本包含针对一个自动驾驶视频的连续视频图像数据、音频数据和问题文本数据;提取的视频特征和音频特征融合并输入场景超图生成模块,与关系查询输入关系解码器获取关系特征,与驾驶行为查询输入驾驶行为解码器获得驾驶行为特征,两类分类头输出两类分类结果;场景超图嵌入层分别对关系特征和驾驶行为特征添加对应分类结果和时间步的嵌入,引入标识嵌入后获得场景超图嵌入,与问题文本特征共同输入视频问答模块,输出关于问题文本数据的答案预测值;通过匈牙利匹配损失函数和交叉熵损失函数构建融合损失函数获得自动驾驶视频问答模型。

    双阶段视频去噪模型训练方法、视频去噪方法和系统

    公开(公告)号:CN116630837A

    公开(公告)日:2023-08-22

    申请号:CN202310260849.1

    申请日:2023-03-13

    Abstract: 本申请提供一种双阶段视频去噪模型训练方法、视频去噪方法和系统,方法包括:采用各个噪声视频样本各自的无噪声视频数据以及各个图像帧组,对残差自注意力模型进行模型训练,使得残差自注意力模型先在第一阶段提取各个图像帧组中的主图像帧的动态特征以得到第一阶段去噪结果,再于第二阶段基于各个第一阶段去噪结果分别提取各个主图像帧的静态特征以得到第二阶段去噪结果,进而生成用于对视频去噪的双阶段视频去噪模型。本申请能够从两个阶段分别针对时间和空间两个维度的不同特点进行动态特征和静态特征的提取,能够有效提高训练得到的视频去噪模型的性能,进而能够有效提高双阶段视频去噪模型输出的视频去噪结果的鲁棒性、显著性及可靠性。

    一种多模态的自动驾驶目标检测方法、系统和存储介质

    公开(公告)号:CN119723498A

    公开(公告)日:2025-03-28

    申请号:CN202411802121.8

    申请日:2024-12-09

    Abstract: 本发明提供一种多模态的自动驾驶目标检测方法、系统和存储介质,所述方法包括:利用自顶向下方式将当前时刻的多模态特征映射到BEV空间,得到第一BEV特征;其中,多模态特征包括基于车载摄像头采集的视觉模态数据得到的二维视觉模态特征;基于当前时刻的视觉模态特征,利用自底向上方式得到第二BEV特征;利用多模态特征融合技术融合第一BEV特征和第二BEV特征,得到当前时刻的多模态融合BEV特征,并将多模态融合BEV特征作为解码器的输入,以进行目标检测。本发明在自动驾驶领域内具有较为优越的目标感知性能,并且能够提高感知鲁棒性。

    手部骨骼姿态估计与动作识别模型训练方法、识别方法和设备

    公开(公告)号:CN117975563B

    公开(公告)日:2025-02-11

    申请号:CN202410169399.X

    申请日:2024-02-06

    Abstract: 本申请提供手部骨骼姿态估计与动作识别模型训练方法、识别方法和设备,涉及图像处理技术领域,训练方法包括:基于手部图像数据和关键点二维坐标集合将图注意力网络训练为二维手部骨骼姿态估计模型;采用手部图像数据的关键点二维坐标集合估计结果、关键点三维坐标集合和手部动作类型标签训练医学图像分割模型和动作识别网络,得到三维手部骨骼姿态估计模型和手部动作识别模型。本申请通过采用图注意力网络,能够有效地利用手部图像数据的结构信息,并能够提高手部图像数据的结构信息利用的灵活性及可靠性,能够提高训练得到的手部骨骼姿态估计及动作识别模型的性能和泛化能力,进而能够提高采用该模型进行手部骨骼姿态估计及动作识别的准确性。

Patent Agency Ranking