-
公开(公告)号:CN119478587A
公开(公告)日:2025-02-18
申请号:CN202510027124.7
申请日:2025-01-08
Applicant: 南京信息工程大学
IPC: G06V10/774 , G06V10/80 , G06N3/082
Abstract: 本发明提出了一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统,所述方法包括:步骤1,在LoRA微调过程中,结合CLIP损失和感知损失,动态调整CLIP损失和感知损失的权重;步骤2,利用CLIP模型计算去噪后的中间图像与目标文本的语义相似度,并根据相似度差异优化扩散模型的噪声预测能力;步骤3,采用感知损失计算中间图像与目标图像在特征空间的差异,并优化扩散模型的噪声预测能力,提升生成图像的视觉质量与细节保真度;步骤4,根据训练进展调整是否启用CLIP损失和感知损失。通过引入CLIP损失,模型在微调训练过程中能够更好地将图像与文本进行对齐,使得生成的图像更加符合文本提示的描述。