-
公开(公告)号:CN119068526A
公开(公告)日:2024-12-03
申请号:CN202411134657.7
申请日:2024-08-19
Applicant: 浙江工商大学
IPC: G06V40/16 , G06V10/24 , G06V10/774 , G06V10/75
Abstract: 本发明公开了一种基于多帧唇部参考和唇部光流模块的说话人脸生成方法、系统、设备及介质。本发明设计了一个基于唇部光流模块的对齐模型,以提供更为精确的对齐参考图像,提升生成唇部结果的精确度。同时,本发明设计了一个基于多帧参考唇部模块和音频感知交叉注意力模块的渲染模型,以生成更为逼真的人物特征与唇部细节。最后,本发明通过结合对齐模型与渲染模型,显著提升了生成人物的唇部质量,为生成高质量说话人脸图像提供了一种有效而稳定的解决方案。