-
公开(公告)号:CN113658582B
公开(公告)日:2024-05-07
申请号:CN202110800963.X
申请日:2021-07-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种音视协同的唇语识别方法和系统,基于视觉‑视觉、音频‑音频、视觉‑音频等三个层面的度量学习,三个度量学习机制的同时进行不仅缩短了训练时间和阶段,还能更好地进行视觉和音频两种模态间的协同学习。通过音频信息的帮助,本发明的视觉模型可以提取更有区分度的特征,从而提升唇语识别模型的性能。
-
公开(公告)号:CN113658582A
公开(公告)日:2021-11-16
申请号:CN202110800963.X
申请日:2021-07-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种音视协同的唇语识别方法和系统,基于视觉‑视觉、音频‑音频、视觉‑音频等三个层面的度量学习,三个度量学习机制的同时进行不仅缩短了训练时间和阶段,还能更好地进行视觉和音频两种模态间的协同学习。通过音频信息的帮助,本发明的视觉模型可以提取更有区分度的特征,从而提升唇语识别模型的性能。
-