-
公开(公告)号:CN116978115A
公开(公告)日:2023-10-31
申请号:CN202310739037.5
申请日:2023-06-21
Applicant: 安徽大学
IPC: G06V40/20 , G06V40/16 , G06V20/40 , G06V10/25 , G06V10/44 , G06V10/52 , G06V10/764 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/047 , G06N3/048 , G10L15/25
Abstract: 本发明公开了一种基于部分卷积和多尺度特征提取的唇语识别方法,包括以下步骤:S1:获取单词级唇语识别视频数据集,并对每个视频进行人脸关键点检测;S2:对唇语识别数据集进行预处理,得到裁剪后的连续灰度化的唇语视频序列;S3:将预处理后的数据集中的数据进行划分;S4:对训练集数据使用水平翻转、Mixup、时间掩蔽、随机切除等数据增强方法;S5:对训练集中的数据进行短期时序特征提取和空间特征提取;S6:采用Res2‑TCN网络对唇语识别数据集的短期和长期时序特征进行提取;S7:将用于结果分类的序列输入到全连接层进行分类;S8:根据唇语识别的结果计算模型的损失。本发明可以保证模型在计算量非常小的情况下能实现更准确的唇语识别。