-
公开(公告)号:CN116580720A
公开(公告)日:2023-08-11
申请号:CN202310187677.X
申请日:2023-03-01
Applicant: 华院计算技术(上海)股份有限公司
IPC: G10L21/028 , G10L25/18 , G10L25/30 , G06V40/16 , G06V20/40
Abstract: 本发明公开了一种基于视听语音分离的说话人视觉激活解释方法及系统,方法包括:由说话人视频片段抽取说话人音频片段,与噪声音频片段混合得到混合语音片段;基于残差神经网络提取唇部运动特征和面部特征,基于U‑net进行音频特征提取,并对齐构成多模态深度特征;确定视听语音分离模型的模型组件和损失函数并完成训练;解码视频流信息并输入部署的视听语音分离模型,并根据输出的预测频谱图计算得分函数,根据得分函数计算视觉模态不同层的贡献度,通过热力图生成视觉模态激活图。通过本发明的技术方案,创新性地提出了适用于视听语音分离特殊输出的可视化解释方法,得到了超过目前最先进水平的分离效果,能够在更复杂条件下稳定工作。