基于膨胀卷积的多模态融合视线估计方法

    公开(公告)号:CN111046734A

    公开(公告)日:2020-04-21

    申请号:CN201911099980.4

    申请日:2019-11-12

    Inventor: 罗元 陈顺

    Abstract: 本发明公开了一种基于膨胀卷积的多模态融合视线估计方法,利用膨胀卷积设计了一种GENet的网络提取眼睛的RGB和深度图像的特征图,并利用卷积神经网络的全连接层自动融合头部姿态和两种图像的特征图,从而进行视线估计。在公开数据集Eyediap上验证了设计的模型,并将设计的模型同其它视线估计模型进行比较。实验结果表明在卷积神经网络中膨胀卷积的引入能够进一步降低误差;当输入为深度人眼图、RGB人眼图、和头部姿态三个模态时,估计误差最小;在视线估计这项任务中头部姿态起着重要作用,而提出的模型对于头部姿态的变化具有较强的鲁棒性;同时通过与近几年其他视线估计的先进方法进行对比,本发明提出的模型依旧取得了优越的性能。

    一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法

    公开(公告)号:CN110246154B

    公开(公告)日:2022-12-27

    申请号:CN201910376926.3

    申请日:2019-05-07

    Abstract: 本发明请求保护一种基于ICA‑R多特征融合与自适应更新的视觉目标跟踪方法,该方法首先利用微调后的VGG‑m网络得到深度调整,并结合参考独立成分分析的方法(Independent Component Analysis with Reference,ICA‑R),将其与传统手工特征信息融合,得到更具判别性的特征。其次,在模型更新阶段,提出一种基于图像块中心移位欧式距离的自适应更新策略。最后在OTB‑2015,VOT‑2016两个标准跟踪数据集上进行测试,实验结果表明,利用深度特征与传统手工特征融合的方法能够很好地区分背景与目标,提出的视觉目标跟踪算法在应对目标超出视野、运动模糊、遮挡等因素的干扰下均表现出很好的鲁棒性与准确性,其中在OTB‑2015中的成功率达到65.2%,准确率达到86.3%,在VOT‑2016中的准确率排在第一。

    一种基于时空注意力机制的手语识别方法

    公开(公告)号:CN111091045B

    公开(公告)日:2022-08-23

    申请号:CN201911023322.7

    申请日:2019-10-25

    Abstract: 本发明公开了一种基于时空注意力机制的手语识别方法,首先将手语视频采样为具有统一长度的连续手语序列作为模型的输入。然后将视频帧序列输入到由3D残差块构成的空间注意力网络中,使得网络能够自动关注空间中的显著区域。随后将提取的卷积特征经过ConvLSTM卷积长短时记忆网络解析后提取出长时间的序列特征,同时分配不同视频帧的时间注意力权重生成视频的特征表示。最后,生成的特征表示经过Softmax分类器,以向量的形式输出分类类别。本发明能够降低冗余信息对识别的干扰,提高识别准确率。

    基于膨胀卷积的多模态融合视线估计方法

    公开(公告)号:CN111046734B

    公开(公告)日:2022-10-18

    申请号:CN201911099980.4

    申请日:2019-11-12

    Inventor: 罗元 陈顺

    Abstract: 本发明公开了一种基于膨胀卷积的多模态融合视线估计方法,利用膨胀卷积设计了一种GENet的网络提取眼睛的RGB和深度图像的特征图,并利用卷积神经网络的全连接层自动融合头部姿态和两种图像的特征图,从而进行视线估计。在公开数据集Eyediap上验证了设计的模型,并将设计的模型同其它视线估计模型进行比较。实验结果表明在卷积神经网络中膨胀卷积的引入能够进一步降低误差;当输入为深度人眼图、RGB人眼图、和头部姿态三个模态时,估计误差最小;在视线估计这项任务中头部姿态起着重要作用,而提出的模型对于头部姿态的变化具有较强的鲁棒性;同时通过与近几年其他视线估计的先进方法进行对比,本发明提出的模型依旧取得了优越的性能。

    一种基于时空注意力机制的手语识别方法

    公开(公告)号:CN111091045A

    公开(公告)日:2020-05-01

    申请号:CN201911023322.7

    申请日:2019-10-25

    Abstract: 本发明公开了一种基于时空注意力机制的手语识别方法,首先将手语视频采样为具有统一长度的连续手语序列作为模型的输入。然后将视频帧序列输入到由3D残差块构成的空间注意力网络中,使得网络能够自动关注空间中的显著区域。随后将提取的卷积特征经过ConvLSTM卷积长短时记忆网络解析后提取出长时间的序列特征,同时分配不同视频帧的时间注意力权重生成视频的特征表示。最后,生成的特征表示经过Softmax分类器,以向量的形式输出分类类别。本发明能够降低冗余信息对识别的干扰,提高识别准确率。

    一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法

    公开(公告)号:CN110246154A

    公开(公告)日:2019-09-17

    申请号:CN201910376926.3

    申请日:2019-05-07

    Abstract: 本发明请求保护一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法,该方法首先利用微调后的VGG-m网络得到深度调整,并结合参考独立成分分析的方法(Independent Component Analysis with Reference,ICA-R),将其与传统手工特征信息融合,得到更具判别性的特征。其次,在模型更新阶段,提出一种基于图像块中心移位欧式距离的自适应更新策略。最后在OTB-2015,VOT-2016两个标准跟踪数据集上进行测试,实验结果表明,利用深度特征与传统手工特征融合的方法能够很好地区分背景与目标,提出的视觉目标跟踪算法在应对目标超出视野、运动模糊、遮挡等因素的干扰下均表现出很好的鲁棒性与准确性,其中在OTB-2015中的成功率达到65.2%,准确率达到86.3%,在VOT-2016中的准确率排在第一。

Patent Agency Ranking