一种基于多尺度时空卷积的唇语识别方法及系统

    公开(公告)号:CN115830688A

    公开(公告)日:2023-03-21

    申请号:CN202211641793.6

    申请日:2022-12-20

    Abstract: 本发明提出了一种基于多尺度时空卷积的唇语识别方法及系统,首选构建唇语识别数据集并对其进行预处理得到连续灰度唇语图像序列,通过构建的基于多尺度时空卷积的音素序列提取网络模型,针对连续灰度唇语图像序列提取时空运动信息、提取细粒度特征、聚合多尺度唇部特征和预测音素类别,生成相应的发音音素序列,从而通过对发音音素序列的转换,得到目标自然语句。本发明利用不同尺度的时空卷积去提取句子间的深层关联特征,聚合不同时间尺度和空间尺度的信息,在特征编码时同时结合长短期信息,考虑整体结构和相邻的词组的相关性,从而更好地依据上下文信息,降低唇语识别在视觉表征上的模糊性,提高唇语识别的效率和准确率。

Patent Agency Ranking