一种基于掩码感知图卷积和骨骼先验的人体动作捕捉方法

    公开(公告)号:CN120088331A

    公开(公告)日:2025-06-03

    申请号:CN202510577887.9

    申请日:2025-05-07

    Applicant: 南昌大学

    Abstract: 本申请属于计算机视觉技术领域,公开了一种基于掩码感知图卷积和骨骼先验的人体动作捕捉方法,该方法包括:获取输入图像及其对应的人体掩码;提取图像和掩码的特征并进行编码;构建掩码感知图卷积网络,利用掩码信息构建图卷积网络的邻接矩阵,并施加掩码约束损失,以增强图像人体区域特征的表示能力;构建骨骼先验解耦网络,利用SMPL模型的骨架和顶点信息作为先验,结合交叉注意力机制,通过图像特征引导SMPL骨骼节点特征的多模态数据增强;最终输出三维关节位置坐标和形体网格顶点坐标。本方法通过掩码感知图卷积增强局部特征一致性,并结合骨骼先验提升几何一致性,有效提高了单目视觉下三维人体动作捕捉的精度。

    一种跨模态食品检索方法
    2.
    发明公开

    公开(公告)号:CN119903203A

    公开(公告)日:2025-04-29

    申请号:CN202411890626.4

    申请日:2024-12-20

    Applicant: 南昌大学

    Abstract: 本发明涉及人工智能和机器学习的跨学科研究领域,尤其涉及。本发明提供了一种跨模态食品检索方法,重点是在图像编码器与食谱编码器的基础上增加多粒度交互编码器构建TE I框架,将给定的图像‑文本配对数据分别输入到图像编码器与食谱编码器进行训练学习,图像编码器提取全局视觉特征,食谱编码器提取层次化特征并使用线性层获得全局食谱特征,多粒度交互编码器提取多粒度特征,所述层次化特征与多粒度特征计算成对的自注意力并取平均值得多粒度交互特征,基于层次化语义对齐损失函数对齐两种模态之间的相关性。目的是探索图像和文本模态之间的多粒度互动相关性,以提高跨模态检索性能。

Patent Agency Ranking