一种基于卷积时序网络的脑电信号发声检测方法

    公开(公告)号:CN117688372B

    公开(公告)日:2024-11-29

    申请号:CN202311672981.X

    申请日:2023-12-07

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于卷积时序网络的脑电信号发声检测方法,包括:对原始脑电数据进行时频分析,作为神经特征;使用希尔伯特变换对音频数据进行包络分析,通过阈值分割进行标注,得到语音特征,对齐语音特征和神经特征;构建发声检测卷积时序网络,使用对齐后的神经特征作为输入数据,对齐后的语音特征作为真值标签构建数据集,对发声检测卷积时序网络进行训练;将待检测脑电信号经过时频分析输入到训练好的卷积时序发声检测器中,预测发音状态,进行脑电信号的发声检测。本发明取得了优于目前常用发声检测器的性能,同时本发明对检测器的检测性能做出解释,有效地改善了现有基于神经网络的发声检测方法的不可解释的问题。

    一种基于面部动态捕捉的中文唇语识别方法

    公开(公告)号:CN119028348A

    公开(公告)日:2024-11-26

    申请号:CN202411114776.6

    申请日:2024-08-14

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于面部动态捕捉的中文唇语识别方法,具体步骤为:使用深度相机采集面部连续像;对连续图像进行三维面部关键点估计,并计算面部动态特征;将面部动态特征输入到唇语识别模型中,得到拼音类别的概率分布;使用大语言模型根据拼音类别的概率分布进行文字序列预测,生成中文唇语识别结果。本发明创新性地引入了深度摄像头进行数据采集,提供了深度信息作为输入,有效增强了模型在低光照环境下的表现。同时,模型训练数据覆盖了更加多样化的生活场景,更贴合实际应用需求。因为直接利用面部动态数据,模型省掉了复杂的3D卷积预处理网络,使得模型能够快速高效处理数据。因此该技术具有广泛应用于智能手机/智能移动设备的潜力。

    一种基于卷积时序网络的脑电信号发声检测方法

    公开(公告)号:CN117688372A

    公开(公告)日:2024-03-12

    申请号:CN202311672981.X

    申请日:2023-12-07

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于卷积时序网络的脑电信号发声检测方法,包括:对原始脑电数据进行时频分析,作为神经特征;使用希尔伯特变换对音频数据进行包络分析,通过阈值分割进行标注,得到语音特征,对齐语音特征和神经特征;构建发声检测卷积时序网络,使用对齐后的神经特征作为输入数据,对齐后的语音特征作为真值标签构建数据集,对发声检测卷积时序网络进行训练;将待检测脑电信号经过时频分析输入到训练好的卷积时序发声检测器中,预测发音状态,进行脑电信号的发声检测。本发明取得了优于目前常用发声检测器的性能,同时本发明对检测器的检测性能做出解释,有效地改善了现有基于神经网络的发声检测方法的不可解释的问题。

Patent Agency Ranking