-
公开(公告)号:CN117558047A
公开(公告)日:2024-02-13
申请号:CN202311503023.X
申请日:2023-11-10
Applicant: 深圳市腾讯计算机系统有限公司 , 南京大学
IPC: G06V40/16 , G06V40/70 , G06V10/774 , G06V10/77 , G06V10/82 , G06N3/0464 , G06N3/0895 , G10L21/055 , G10L25/30 , G10L13/02
Abstract: 本申请提供了一种模型训练方法、视频生成方法、装置、设备以及存储介质,该方法包括:采集说话人脸视频数据集和音频数据集,说话人脸视频数据集包括多个人的说话人脸视频数据,每个人的说话人脸视频数据包括每个人在多视角下的多帧说话人脸图像,音频数据集包括多个人的音频数据;对每个人的说话人脸图像进行特征提取得到每个人的说话人脸图像对应的目标身份特征向量,以及对每个人的音频数据进行特征提取得到每个人的音频数据对应的目标音频特征向量;利用每个人的说话人脸图像对应的目标身份特征向量和每个人的音频数据对应的目标音频特征向量,对神经辐射场模型和超分网络进行联合训练,其中,神经辐射场模型的输出作为超分网络的输入。