一种基于深度学习的中文手语识别系统

    公开(公告)号:CN111723779A

    公开(公告)日:2020-09-29

    申请号:CN202010699780.9

    申请日:2020-07-20

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于深度学习的中文手语识别系统。该手语识别系统设为手语单词识别和连续手语识别两个模式,分别用于对手语动作表达的单词和句子进行识别。整个系统由数据采集模块、数据处理模块、识别模块和输出显示模块组成,其中手语单词识别模块由图卷积神经网络和三维卷积神经网络组成,连续手语识别模块由编码器-解码器网络组成。系统通过数据采集模块采集手语动作的图像和关节数据,然后进行预处理,并将数据输入识别模块,最终输出对应的手语单词或者句子。本发明可以将手语转换为文本,促进听力障碍人士和普通人之间的沟通。本发明实用性强,稳定性高,便于推广应用。

    一种基于文本驱动的数字人动作生成方法

    公开(公告)号:CN119579743B

    公开(公告)日:2025-04-15

    申请号:CN202510137065.9

    申请日:2025-02-07

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于文本驱动的数字人动作生成方法,在构建训练数据集时将人体各个身体部位进行解耦,针对每个身体部位生成对应的文本描述单元,通过随机选择文本描述单元构建描述同一动作的不同文本,缓解以往数据集存在的局部动作组合偏置的影响,帮助模型更好地将文本和其对应的局部身体动作进行关联;人体动作向量量化自编码器中的动作编码器和动作解码器均采用了图卷积网络的结构,更加有效地表征人体骨架连接关系。人体运动数据实际上应该为拓扑图结构,而非网格数据,因此图卷积神经网络相较于卷积神经网络,更有效地利用人体拓扑结构,提取关节之间地内在联系。模态转换模型受益于在训练时采用了局部语义强化的损失函数。

    一种基于深度神经网络和混合高斯模型的手势识别交互方法及装置

    公开(公告)号:CN116978119A

    公开(公告)日:2023-10-31

    申请号:CN202310867252.3

    申请日:2023-07-14

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于深度神经网络和混合高斯模型的手势识别交互方法及装置,该手势识别交互系统,能够基于深度视频对用户的手势进行识别,并下发对应的任务指令。整个系统由数据采集模块、数据预处理模块、深度神经网络模块、混合高斯模型模块、可视化模块和任务模块组成,其中深度神经网络模块采用三维卷积神经网络,同时提取手势动作的空间特征和时序特征。混合高斯模型模块通过多个高斯分布建模不同手势类别的特征分布,并根据输入特征在分布中的概率进行识别分类。本发明可以帮助用户通过静态或动态手势进行人机交互,下发任务指令,并能够适用于多个不同用户。本发明可解释性强,可拓展性强,实用性强,便于推广应用。

    一种基于深度学习的中文手语识别系统

    公开(公告)号:CN111723779B

    公开(公告)日:2023-05-02

    申请号:CN202010699780.9

    申请日:2020-07-20

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于深度学习的中文手语识别系统。该手语识别系统设为手语单词识别和连续手语识别两个模式,分别用于对手语动作表达的单词和句子进行识别。整个系统由数据采集模块、数据处理模块、识别模块和输出显示模块组成,其中手语单词识别模块由图卷积神经网络和三维卷积神经网络组成,连续手语识别模块由编码器‑解码器网络组成。系统通过数据采集模块采集手语动作的图像和关节数据,然后进行预处理,并将数据输入识别模块,最终输出对应的手语单词或者句子。本发明可以将手语转换为文本,促进听力障碍人士和普通人之间的沟通。本发明实用性强,稳定性高,便于推广应用。

    一种从人类演示中提取操作技能信息并构建知识库的方法

    公开(公告)号:CN118070890A

    公开(公告)日:2024-05-24

    申请号:CN202410286557.X

    申请日:2024-03-13

    Applicant: 浙江大学

    Abstract: 本发明公开了一种从人类演示中提取操作技能信息并构建知识库的方法,包括获取人类演示RGB视频,通过动作分割模块得到人类演示中的操作技能序列以及每个操作技能在演示视频中的起止帧,对每个操作技能在演示视频中的起止帧进行物体相对位置关系识别,获取物体相对位置关系等步骤,本发明将演示学习与人类指令相结合,利用大语言模型的解析能力,实现了从人类指令到机器人操作技能序列的生成。这种方法突破了以往演示学习主要依赖视觉信息的局限,将文本指令、语音指令等多元输入与视觉演示同步整合,以丰富机器人理解任务和环境的能力。

    基于深度相位相关的异构三维观测配准方法、介质及设备

    公开(公告)号:CN115619835B

    公开(公告)日:2023-09-01

    申请号:CN202211110592.3

    申请日:2022-09-13

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于深度相位相关的异构三维观测配准方法、介质及设备。本发明将相位相关算法优化为全局收敛的可微分相位相关求解器,并将其与简单的特征提取网络相结合,从而构建了一个整体框架可微分且能够端到端训练的异构三维观测配准方法。本发明针对三维的物体、场景测量以及医疗图像数据均可以实现准确的三维观测配准,而且其配准表现高于现有基线模型。

    一种基于视频输入的实时手语动作迁移方法及装置

    公开(公告)号:CN114937310A

    公开(公告)日:2022-08-23

    申请号:CN202210558258.8

    申请日:2022-05-21

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于视频输入的实时手语动作迁移方法及装置,该手语动作迁移系统,能够基于RGB视频输入对手语语句或单词进行实时迁移,生成机器人可执行的动作。整个系统由数据采集模块、人体位姿估计模块、数据处理模块、手语动作迁移模块和机器人执行模块组成,其中手语动作迁移模块采用隐空间优化算法,在图卷积神经网络构建的隐空间上对机器人动作进行优化,生成满足机器人运动学约束并具有相似性的动作。本发明可以将人演示的手语动作实时转换为机器人动作,帮助机器人获得手语技能,构建听力障碍人士和普通人之间沟通的桥梁。本发明实用性强,稳定性高,便于推广应用。

    一种基于文本驱动的数字人动作生成方法

    公开(公告)号:CN119579743A

    公开(公告)日:2025-03-07

    申请号:CN202510137065.9

    申请日:2025-02-07

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于文本驱动的数字人动作生成方法,在构建训练数据集时将人体各个身体部位进行解耦,针对每个身体部位生成对应的文本描述单元,通过随机选择文本描述单元构建描述同一动作的不同文本,缓解以往数据集存在的局部动作组合偏置的影响,帮助模型更好地将文本和其对应的局部身体动作进行关联;人体动作向量量化自编码器中的动作编码器和动作解码器均采用了图卷积网络的结构,更加有效地表征人体骨架连接关系。人体运动数据实际上应该为拓扑图结构,而非网格数据,因此图卷积神经网络相较于卷积神经网络,更有效地利用人体拓扑结构,提取关节之间地内在联系。模态转换模型受益于在训练时采用了局部语义强化的损失函数。

    基于深度相位相关的异构三维观测配准方法、介质及设备

    公开(公告)号:CN115619835A

    公开(公告)日:2023-01-17

    申请号:CN202211110592.3

    申请日:2022-09-13

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于深度相位相关的异构三维观测配准方法、介质及设备。本发明将相位相关算法优化为全局收敛的可微分相位相关求解器,并将其与简单的特征提取网络相结合,从而构建了一个整体框架可微分且能够端到端训练的异构三维观测配准方法。本发明针对三维的物体、场景测量以及医疗图像数据均可以实现准确的三维观测配准,而且其配准表现高于现有基线模型。

Patent Agency Ranking