-
公开(公告)号:CN117315090B
公开(公告)日:2024-12-13
申请号:CN202311265075.8
申请日:2023-09-27
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于跨模态风格学习的图像生成方法及装置,所述方法包括:通过预训练生成对抗网络生成目标生成图像,并对目标训练图像进行图像增强处理;将目标生成图像和处理后目标训练图像,输入对抗网络的判别器中,将判别器输出的目标特征,输入训练好的原型空间中,并根据原型空间的输出确定交换预测损失;获取目标训练图像和目标生成图像之间的原始对抗损失、源生成图像和目标生成图像之间的对比学习损失与文本指导损失,并根据所述损失确定微调损失;按照所述微调损失对对抗网络进行微调,得到微调后图像生成模型,通过图像生成模型生成与训练图像一致的图像,能够解决当前极少量样本下目标域风格学习不佳的问题。
-
公开(公告)号:CN117315090A
公开(公告)日:2023-12-29
申请号:CN202311265075.8
申请日:2023-09-27
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于跨模态风格学习的图像生成方法及装置,所述方法包括:通过预训练生成对抗网络生成目标生成图像,并对目标训练图像进行图像增强处理;将目标生成图像和处理后目标训练图像,输入对抗网络的判别器中,将判别器输出的目标特征,输入训练好的原型空间中,并根据原型空间的输出确定交换预测损失;获取目标训练图像和目标生成图像之间的原始对抗损失、源生成图像和目标生成图像之间的对比学习损失与文本指导损失,并根据所述损失确定微调损失;按照所述微调损失对对抗网络进行微调,得到微调后图像生成模型,通过图像生成模型生成与训练图像一致的图像,能够解决当前极少量样本下目标域风格学习不佳的问题。
-
公开(公告)号:CN117156081B
公开(公告)日:2024-03-01
申请号:CN202311418899.4
申请日:2023-10-30
Applicant: 中国科学院自动化研究所
IPC: H04N5/265 , H04N21/234 , H04N21/44
Abstract: 本发明实施例涉及一种说话人视频的编辑帧生成方法、装置、电子设备及介质,通过确定原说话人视频的编辑点,以及围绕所述编辑点的目标语音片段和视频帧序列;提取所述目标语音片段的语音特征序列,提取所述第一上下文视频帧的动作特征,并赋予所述待编辑帧动作特征初始值构成所述视频帧序列的第一动作特征序列;将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中,预测出所述目标语音片段驱动的视频帧序列的第二动作特征序列,并从中提取出所述待编辑帧对应的动作特征;将第一上下文视频帧和待编辑帧对应的动作特征输入到训练好的神经渲染模型中,对所述待编辑帧进行渲染,得到目标编辑帧;实现高效、平滑地生成视频帧。
-
公开(公告)号:CN117156081A
公开(公告)日:2023-12-01
申请号:CN202311418899.4
申请日:2023-10-30
Applicant: 中国科学院自动化研究所
IPC: H04N5/265 , H04N21/234 , H04N21/44
Abstract: 本发明实施例涉及一种说话人视频的编辑帧生成方法、装置、电子设备及介质,通过确定原说话人视频的编辑点,以及围绕所述编辑点的目标语音片段和视频帧序列;提取所述目标语音片段的语音特征序列,提取所述第一上下文视频帧的动作特征,并赋予所述待编辑帧动作特征初始值构成所述视频帧序列的第一动作特征序列;将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中,预测出所述目标语音片段驱动的视频帧序列的第二动作特征序列,并从中提取出所述待编辑帧对应的动作特征;将第一上下文视频帧和待编辑帧对应的动作特征输入到训练好的神经渲染模型中,对所述待编辑帧进行渲染,得到目标编辑帧;实现高效、平滑地生成视频帧。
-
-
-