-
公开(公告)号:CN116959060A
公开(公告)日:2023-10-27
申请号:CN202310427059.8
申请日:2023-04-20
Applicant: 湘潭大学
IPC: G06V40/16 , G06V20/40 , G06V10/77 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/0499 , G06N3/045 , G06N3/048 , G06N3/08 , G10L15/25 , G10L15/26 , G06F40/211 , G06F40/289
Abstract: 本发明公开了一种面向医院环境下语言障碍患者的唇语识别方法,属于唇语识别技术领域,包括以下步骤:S1:构建医院中文唇读数据集;S2:构建中文句子唇读网络模型;S3:训练网络;S4:搭建演示系统实现唇语识别。本发明采用上述的一种面向医院环境下语言障碍患者的唇语识别方法,通过录制在病房环境下模拟暂时性语言障碍患者说话的视频作为源数据,然后将视频输入到中文唇语识别数据采集系统中制作数据集,通过这种数据生成的方式可以有效避免数据集本身出现错误的问题,提高训练模型的鲁棒性,填补了病房场景下唇语识别的研究的空白;基于Transformer结构,让模型能够有效的捕捉视频帧中的时空信息,提高唇语识别的精度。