-
公开(公告)号:CN114240999A
公开(公告)日:2022-03-25
申请号:CN202111373469.6
申请日:2021-11-19
Applicant: 浙江工业大学
Abstract: 本发明公开了一种基于增强图注意力与时间卷积网络的运动预测方法,该方法通过聚合时空信息来估计人体未来的运动姿态,构建了增强的图注意力模块与重构的TCN模块,利用输入特征的通道间关系生成通道注意力图,并基于通道注意力图,分别使用局部和全局图注意力卷积网络,提取局部对称、局部连接和全局语义信息。重构的TCN可以有效地捕获复杂的、高动态的时间信息。最后进行通道压缩和维度合并处理得到后处理结果,并对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。本发明可以有效地减少人体运动预测过程中姿态的不连续与误差的累计。
-
公开(公告)号:CN109344750B
公开(公告)日:2021-10-22
申请号:CN201811101377.0
申请日:2018-09-20
Applicant: 浙江工业大学
IPC: G06K9/00
Abstract: 本发明公开了一种基于结构描述子的复杂结构三维对象识别方法,提取目标真实三维点云中各个部件对应的点云单元,采用各个部件对应的点云单元的包围盒大小、核心点云单元的中心到其他点云单元的中心的距离、每对点云单元中心与核心点云单元中心连线所成的夹角,构建标准的三维结构描述子,对待识别的三维场景进行分割,得到三维场景中的所有点云单元,构建候选三维结构描述子,计算候选三维结构描述子与标准结构描述子的曼哈顿距离,如果距离小于设定的第二阈值,则所述候选三维结构描述子对应的点云单元就是需要识别的对象。本发明计算消耗小,且能在三维点云场景中实现快速准确的复杂结构三维对象识别。
-
公开(公告)号:CN109345588A
公开(公告)日:2019-02-15
申请号:CN201811101406.3
申请日:2018-09-20
Applicant: 浙江工业大学
Abstract: 本发明公开了一种基于Tag的六自由度姿态估计方法,通过在物体上添加Tag来辅助检测,通过相机识别出物体上的Tag,帮助SLAM完成初始化,在初始化后,持续对每帧图像提取特征点,并根据上一帧对应的速度矩阵是否为空,进行相机位姿估计,以相机位姿估计得到的值为初值,采用特征点对应的地图点重投影到图像坐标系的重投影误差函数作为目标函数,进行相机位姿优化,得到优化好的相机位姿及特征点对应的地图点,再把相机的位姿转换成物体的位姿。本发明的方法在成像质量差以及物体高速运动时有较好的鲁棒性,并且有很高姿态估计精度。
-
公开(公告)号:CN109344750A
公开(公告)日:2019-02-15
申请号:CN201811101377.0
申请日:2018-09-20
Applicant: 浙江工业大学
IPC: G06K9/00
Abstract: 本发明公开了一种基于结构描述子的复杂结构三维对象识别方法,提取目标真实三维点云中各个部件对应的点云单元,采用各个部件对应的点云单元的包围盒大小、核心点云单元的中心到其他点云单元的中心的距离、每对点云单元中心与核心点云单元中心连线所成的夹角,构建标准的三维结构描述子,对待识别的三维场景进行分割,得到三维场景中的所有点云单元,构建候选三维结构描述子,计算候选三维结构描述子与标准结构描述子的曼哈顿距离,如果距离小于设定的第二阈值,则所述候选三维结构描述子对应的点云单元就是需要识别的对象。本发明计算消耗小,且能在三维点云场景中实现快速准确的复杂结构三维对象识别。
-
公开(公告)号:CN115170613A
公开(公告)日:2022-10-11
申请号:CN202210833048.5
申请日:2022-07-14
Applicant: 浙江工业大学
Abstract: 本发明公开了一种基于时序分级与重组机制的人体运动预测方法,首先采用时序分级模块完成时序特征由低阶至高阶的分层,得到低阶、中阶、高阶的时序特征,然后将低阶、中阶、高阶的时序特征输入时序重组模块,在所述时序重组模块完成时序特征的重组,得到重组时序特征,最后将重组时序特征,依次通过一个增强图注意力与时序卷积单元、二维卷积、维度变换、线性变换操作,得到后处理特征,对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。本发明能显著减少由于人体姿态的时空不连续性造成的误差累积,有效避免对卷积核尺寸大小的依赖。
-
公开(公告)号:CN109345588B
公开(公告)日:2021-10-15
申请号:CN201811101406.3
申请日:2018-09-20
Applicant: 浙江工业大学
Abstract: 本发明公开了一种基于Tag的六自由度姿态估计方法,通过在物体上添加Tag来辅助检测,通过相机识别出物体上的Tag,帮助SLAM完成初始化,在初始化后,持续对每帧图像提取特征点,并根据上一帧对应的速度矩阵是否为空,进行相机位姿估计,以相机位姿估计得到的值为初值,采用特征点对应的地图点重投影到图像坐标系的重投影误差函数作为目标函数,进行相机位姿优化,得到优化好的相机位姿及特征点对应的地图点,再把相机的位姿转换成物体的位姿。本发明的方法在成像质量差以及物体高速运动时有较好的鲁棒性,并且有很高姿态估计精度。
-
公开(公告)号:CN119251867A
公开(公告)日:2025-01-03
申请号:CN202411276030.5
申请日:2024-09-12
Applicant: 浙江工业大学
Abstract: 本发明公开了一种基于全MLP架构的高度紧凑型人体长时运动预测方法,包括:获取原始时序人体骨架数据并进行预处理,预处理为将原始时序人体骨架数据由时域变换为频域后映射到高维空间,形成高维空间特征;建立全MLP架构模型,包括N个依次连接的动态时空特征感知模块;将高维空间特征输入全MLP架构模型,获得第一提取特征;将第一提取特征依次经过层归一化和第一线性层从高维空间恢复至三维空间;将恢复后的第一提取特征从频域变换为时域,形成第二提取特征;将第二提取特征输入多时段联合预测模块,获得最终预测结果。通过轻量化设计大大减少模型的参数量,从而降低了计算复杂度与资源消耗,提高了预测的准确性和可靠性,通用性好。
-
公开(公告)号:CN119206869A
公开(公告)日:2024-12-27
申请号:CN202411334582.7
申请日:2024-09-24
Applicant: 浙江工业大学
IPC: G06V40/20 , G06V10/62 , G06V10/764 , G06V10/82 , G06N3/044 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/09
Abstract: 本发明公开了一种基于跨模态连续时序约束的手语识别方法,在训练手语视觉识别网络模型时引入辅助语言模型和跨模态连续时序约束模块,将视频样本输入至手语视觉识别网络模型,获取视觉特征,然后通过多层感知机投影得到对应的视觉中间特征;并将辅助语言序列,输入至辅助语言模型,获取语言特征,然后通过多层感知机投影得到对应的语言中间特征;然后将视觉中间特征和语言中间特征输入跨模态连续时序约束模块,计算模态间输出差异指标和跨模态连续约束损失,完成手语视觉识别网络模型的训练。从而通过训练完成的手语视觉识别网络模型来进行手语识别。本发明增强了算法的性能,从而推动人工智能在动作识别、手语识别等领域的应用。
-
公开(公告)号:CN119206868A
公开(公告)日:2024-12-27
申请号:CN202411334343.1
申请日:2024-09-24
Applicant: 浙江工业大学
IPC: G06V40/20 , G06V10/44 , G06V10/62 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/042 , G06N3/045 , G06N3/0464
Abstract: 本发明公开了一种基于特征金字塔的骨架动作识别方法,将待检测骨架序列输入到由预设数量的金字塔图卷积块组成的特征提取网络,获得人体骨架的多尺度特征;然后,对特征提取网络输出的多尺度特征进行帧融合和个体融合,得到通道数维度向量;最后对通道数维度向量进行线性投影变化后,经过分类函数得到识别结果。本发明通过捕捉骨架序列的多尺度空间特征,增强了模型的表征能力,通过基于注意力的图池化模块,能够有效地将骨架压缩为多个低阶子图,相比于现有技术方案,本申请实现了最高的识别准确率。
-
-
-
-
-
-
-
-