一种加强通道重排和融合的卷积神经网络模块的实现方法

    公开(公告)号:CN112801275B

    公开(公告)日:2024-02-13

    申请号:CN202110171972.7

    申请日:2021-02-08

    Abstract: 本发明公开了一种加强通道重排和融合的卷积神经网络模块的实现方法,包括以下步骤:通过一个卷积层提取某一层次特征图的特征,产生一个过渡的特征图;通过对产生的过渡特征图在空间维度上进行池化,得到和通道尺寸相同的重排融合向量;利用得到的重排融合向量,计算出重排融合的新通道和对应的权重,对某一通道的特征图按计算的权重累加到新通道及其相邻通道上,遍历所有通道,待所有通道都加权累加后便得到融合后的特征图。本发明的模块,可以无缝插入到任何卷积神经网络当中,加强不同通道信息的交流,可应用于图像分类的网络、目标检测、语义分割等任务的主干网络中。

    多模态情绪压力识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN113057633B

    公开(公告)日:2022-11-01

    申请号:CN202110324847.5

    申请日:2021-03-26

    Abstract: 本发明提供了一种多模态情绪压力识别方法、装置、计算机设备及存储介质,该方法包括:获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。本发明选取的多模态数据在表征情绪压力时存在内在关联,并通过深度学习模型充分挖掘多模态数据中的空间信息和时间信息并将其融合,使得深度学习模型更关注数据中最能表征情绪压力的部分,从而提高情绪压力识别的准确率。

    多模态情绪压力识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN113057633A

    公开(公告)日:2021-07-02

    申请号:CN202110324847.5

    申请日:2021-03-26

    Abstract: 本发明提供了一种多模态情绪压力识别方法、装置、计算机设备及存储介质,该方法包括:获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。本发明选取的多模态数据在表征情绪压力时存在内在关联,并通过深度学习模型充分挖掘多模态数据中的空间信息和时间信息并将其融合,使得深度学习模型更关注数据中最能表征情绪压力的部分,从而提高情绪压力识别的准确率。

    一种加强通道重排和融合的卷积神经网络模块的实现方法

    公开(公告)号:CN112801275A

    公开(公告)日:2021-05-14

    申请号:CN202110171972.7

    申请日:2021-02-08

    Abstract: 本发明公开了一种加强通道重排和融合的卷积神经网络模块的实现方法,包括以下步骤:通过一个卷积层提取某一层次特征图的特征,产生一个过渡的特征图;通过对产生的过渡特征图在空间维度上进行池化,得到和通道尺寸相同的重排融合向量;利用得到的重排融合向量,计算出重排融合的新通道和对应的权重,对某一通道的特征图按计算的权重累加到新通道及其相邻通道上,遍历所有通道,待所有通道都加权累加后便得到融合后的特征图。本发明的模块,可以无缝插入到任何卷积神经网络当中,加强不同通道信息的交流,可应用于图像分类的网络、目标检测、语义分割等任务的主干网络中。

    一种基于随机深度时延神经网络模型的自动语音识别方法

    公开(公告)号:CN109065033B

    公开(公告)日:2021-03-30

    申请号:CN201811091089.1

    申请日:2018-09-19

    Abstract: 本发明属于自动语音识别技术领域,涉及一种基于随机深度时延神经网络模型的自动语音识别方法,包括:准备训练数据;对训练语音音频数据提取声学特征;训练传统GMM‑HMM模型,用训练好的GMM‑HMM模型对训练语音音频数据进行强制对齐,得到对应的帧级别训练标注;利用训练语音音频数据和对应的帧级别训练标注,对基于随机深度的时延神经网络模型进行监督训练,最终结合隐马尔科夫模型得到声学模型;利用对应的文本标注数据或者其他数据集的文本进行训练,得到训练好的语言模型;利用训练好的语言模型和声学模型,构建自动语音识别的解码器。本发明不仅提高了模型的建模能力,还解决了训练过程中过拟合以及梯度消失的问题,从而提高了语音识别的准确性。

    基于区域卷积神经网络的第一视角手势识别与交互方法

    公开(公告)号:CN107168527B

    公开(公告)日:2019-10-18

    申请号:CN201710273519.0

    申请日:2017-04-25

    Abstract: 本发明公开了一种基于区域卷积神经网络的第一视角手势识别与交互方法,该方法包括如下步骤:S1、获取训练数据;S2、设计一个基于区域神经网络,在用于手部检测的同时,也用于手势分类与指尖检测,使得神经网络输入为三通道RGB图像,输出为手势区域的外接矩阵左上角坐标和右下角坐标,以及手势类别、手势骨架关键点;S3,判断手势类别,根据不同交互需求输出相应的交互结果。本发明提供了一种完整的第一视角手势识别与交互方法,通过单模型训练与部分网络共享,提高了第一视角下手势识别的识别速度与准确性。

    公共背景噪声下激活式的声纹密码安全控制方法及系统

    公开(公告)号:CN107172018A

    公开(公告)日:2017-09-15

    申请号:CN201710285878.8

    申请日:2017-04-27

    Inventor: 金亚强 殷瑞祥

    Abstract: 本发明公开一种公共背景噪声下激活式的声纹密码安全控制方法及系统,方法的步骤包括:激活识别模块在普通环境下实时进行语音监测,判定语音信号是否需要激活声源定位拾取模块;声源定位拾取模块接收交互目标声源数据,并进行到达时延差的估计;对到达时延差,结合麦克风阵列的位置构造多个双曲面,确定交互目标声源位置,并得到交互目标声源的语音信号;预处理模块对交互目标声源的语音信号进行预处理;声纹密码识别模块提取语音信号特征参数,将特征参数与录音库的指令文本进行匹配。本发明解决了系统的功耗性,其他人声、回声、混响低信噪比下对语音突发的增量进行定位拾取,通过三次安全语音识别及控制的操作解决上述现状的问题。

    一种工业设备剩余寿命预测方法、装置、存储介质及设备

    公开(公告)号:CN111460728B

    公开(公告)日:2022-08-12

    申请号:CN202010156709.6

    申请日:2020-03-09

    Abstract: 本发明提供了一种工业设备剩余寿命预测方法、装置、存储介质及设备;其中方法包括如下步骤:获取工业设备的传感器监测数据,对传感器监测数据进行数据预处理并获取训练样本;注意力循环神经网络的模型构建与训练:使用lstm网络和输出全连接层构建注意力循环神经网络;在训练过程中,通过注意力层和lstm网络对多维传感器时间序列中各类传感器时间序列赋予不同权重,将带不同权重的多维传感器时间序列输入lstm网络获取高维特征,最后通过输出全连接层获取预测结果;通过注意力循环神经网络预测剩余寿命。本发明能够对不同的传感器时间序列赋予不同的权重,使模型更加关注与工业设备剩余寿命相关度高的传感器输入,从而提高预测准确率。

Patent Agency Ranking