-
公开(公告)号:CN113609923B
公开(公告)日:2022-05-13
申请号:CN202110800098.9
申请日:2021-07-13
Applicant: 中国矿业大学
IPC: G06V40/20 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/04
Abstract: 本发明公开了一种基于注意力的连续手语语句识别方法,首先,分别提取彩色视频和光流视频模态的关键帧手语视频的关键帧序列的时空特征,将提取到的时空特征输入构建的基于注意力的连续手语语句识别模型,该模型本质上是一个序列到序列模型:通过基于注意力的双模态编码网络得到两个模态的融合特征序列,并输入基于连接时序分类的解码网络,得到最终的语义序列。本发明通过利用序列到序列模型将手语序列转换到另一个语言序列,解决输出长度不确定的问题,改善输入与输出序列的不规则对齐问题。同时,在完成具有冗余信息的复杂任务时,使用注意力模型将注意力聚焦于视频特征的重要区域,对连续手语语句识别效果有显著的提升。
-
公开(公告)号:CN113609922A
公开(公告)日:2021-11-05
申请号:CN202110792080.9
申请日:2021-07-13
Applicant: 中国矿业大学
Abstract: 本发明公开了一种基于模态匹配的连续手语语句识别方法,将手语语句的彩色视频和光流图像序列的关键帧和目标词语片段序列作为输入,通过基于模态匹配的连续手语语句识别模型,将手语语句的彩色视频和光流图像序列的关键帧片段序列与语义匹配对齐,得到最终的语义序列。本发明公开了一种基于模态匹配的连续手语语句识别模型,用轻量的特征提取网络,减少其参数量,针对手语数据集进行任务特定性训练,在数据集中样本的标注较少的情况下对连续手语语句进行识别,减少了在传统手语识别方法中对人体姿势信息高度依赖的问题。
-
公开(公告)号:CN113297955A
公开(公告)日:2021-08-24
申请号:CN202110559367.7
申请日:2021-05-21
Applicant: 中国矿业大学
Abstract: 本发明公开了一种基于多模态分层级信息融合的手语词识别方法,该方法包括:以彩色视频、深度视频和骨骼节点视频三种模态的关键帧序列作为网络输入,构建一个双流I3D网络提取彩色视频和深度视频特征,通过特征拼接融合双模态语义特征,再使用LSTM构建长期时空特征,使用SoftMax进行分类评分;同时使用DST‑GCN网络提取骨骼节点视频的时空特征,再使用SoftMax进行分类评分;最终通过决策级融合方式将两个SoftMax层的预测分数进行融合,得到手语词识别结果。本发明所提出的基于多模态分层级信息融合的手语词识别方法,通过构建分层级融合策略,充分利用了多模态数据互补信息;通过构建DST‑GCN网络,增强了时空图卷积网络时间特征提取能力,进而提高了手语词识别的准确率。
-
公开(公告)号:CN113609922B
公开(公告)日:2022-05-13
申请号:CN202110792080.9
申请日:2021-07-13
Applicant: 中国矿业大学
Abstract: 本发明公开了一种基于模态匹配的连续手语语句识别方法,将手语语句的彩色视频和光流图像序列的关键帧和目标词语片段序列作为输入,通过基于模态匹配的连续手语语句识别模型,将手语语句的彩色视频和光流图像序列的关键帧片段序列与语义匹配对齐,得到最终的语义序列。本发明公开了一种基于模态匹配的连续手语语句识别模型,用轻量的特征提取网络,减少其参数量,针对手语数据集进行任务特定性训练,在数据集中样本的标注较少的情况下对连续手语语句进行识别,减少了在传统手语识别方法中对人体姿势信息高度依赖的问题。
-
公开(公告)号:CN113297955B
公开(公告)日:2022-03-18
申请号:CN202110559367.7
申请日:2021-05-21
Applicant: 中国矿业大学
Abstract: 本发明公开了一种基于多模态分层级信息融合的手语词识别方法,该方法包括:以彩色视频、深度视频和骨骼节点视频三种模态的关键帧序列作为网络输入,构建一个双流I3D网络提取彩色视频和深度视频特征,通过特征拼接融合双模态语义特征,再使用LSTM构建长期时空特征,使用SoftMax进行分类评分;同时使用DST‑GCN网络提取骨骼节点视频的时空特征,再使用SoftMax进行分类评分;最终通过决策级融合方式将两个SoftMax层的预测分数进行融合,得到手语词识别结果。本发明所提出的基于多模态分层级信息融合的手语词识别方法,通过构建分层级融合策略,充分利用了多模态数据互补信息;通过构建DST‑GCN网络,增强了时空图卷积网络时间特征提取能力,进而提高了手语词识别的准确率。
-
公开(公告)号:CN113609923A
公开(公告)日:2021-11-05
申请号:CN202110800098.9
申请日:2021-07-13
Applicant: 中国矿业大学
Abstract: 本发明公开了一种基于注意力的连续手语语句识别方法,首先,分别提取彩色视频和光流视频模态的关键帧手语视频的关键帧序列的时空特征,将提取到的时空特征输入构建的基于注意力的连续手语语句识别模型,该模型本质上是一个序列到序列模型:通过基于注意力的双模态编码网络得到两个模态的融合特征序列,并输入基于连接时序分类的解码网络,得到最终的语义序列。本发明通过利用序列到序列模型将手语序列转换到另一个语言序列,解决输出长度不确定的问题,改善输入与输出序列的不规则对齐问题。同时,在完成具有冗余信息的复杂任务时,使用注意力模型将注意力聚焦于视频特征的重要区域,对连续手语语句识别效果有显著的提升。
-
公开(公告)号:CN112241680A
公开(公告)日:2021-01-19
申请号:CN202010962646.3
申请日:2020-09-14
Applicant: 中国矿业大学
Abstract: 本发明公开了一种基于静脉相似图像知识迁移网络的多模态身份认证方法,基于相似图像的知识迁移学习网络模型和监督词袋模型。本发明涉及计算机视觉领域,采用一种基于静脉图像相似性的知识迁移网络,依次对人脸识别模型到静脉身份认证模型到静脉性别判定模型进行训练、微调,将微调后的网络对静脉图像进行特征提取,采用一种监督词袋模型对静脉性别判定模型输出的高维性别特征向量进行二次编码,进行身份认证和性别判定。本发明公开的基于相似图像的知识迁移网络和监督词袋模型,可以利用邻域模型之间的相似属性使得模型微调前的特征表征参数空间存在交叉性,提高了身份识别的准确率,确保了模型的判别和泛化性能。
-
-
-
-
-
-