-
公开(公告)号:CN114973412B
公开(公告)日:2024-09-10
申请号:CN202210614030.6
申请日:2022-05-31
Applicant: 华中科技大学
IPC: G06V40/20 , G06V40/16 , G06V10/82 , G06N3/0455 , G06N3/0464 , G10L15/25
Abstract: 本发明公开了一种唇语识别方法和系统,其中方法包括:获取视频帧中人脸图像及其真实唇部语言,提取人脸图像的唇部区域,组成ROI序列,将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支,输出拼接差分特征的唇部区域特征,将拼接差分特征的唇部区域特征输入后端分类网络,输出预测字符,以预测字符与真实唇部语言之间的误差最小为目标训练至收敛,得到唇语识别模型。提取连续帧人脸图像的唇部区域输入唇语识别模型进行唇语识别,得到各帧人脸图像对应的字符,组成语言文本。本发明唇语识别方法识别效率高,准确率高,泛化性能较好,可以很好的应用于听障人士的辅助设备中,适用于多种场景,如超市、车站、医院、学校。
-
公开(公告)号:CN114973412A
公开(公告)日:2022-08-30
申请号:CN202210614030.6
申请日:2022-05-31
Applicant: 华中科技大学
Abstract: 本发明公开了一种唇语识别方法和系统,其中方法包括:获取视频帧中人脸图像及其真实唇部语言,提取人脸图像的唇部区域,组成ROI序列,将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支,输出拼接差分特征的唇部区域特征,将拼接差分特征的唇部区域特征输入后端分类网络,输出预测字符,以预测字符与真实唇部语言之间的误差最小为目标训练至收敛,得到唇语识别模型。提取连续帧人脸图像的唇部区域输入唇语识别模型进行唇语识别,得到各帧人脸图像对应的字符,组成语言文本。本发明唇语识别方法识别效率高,准确率高,泛化性能较好,可以很好的应用于听障人士的辅助设备中,适用于多种场景,如超市、车站、医院、学校。
-