-
公开(公告)号:CN119648568A
公开(公告)日:2025-03-18
申请号:CN202411786947.X
申请日:2024-12-06
Applicant: 厦门大学
IPC: G06T5/70 , G06F40/289 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于轨迹的目标精细控制的2D图像生成的分层引导方法,涉及图像生成技术领域。所述方法通过设计分层引导机制计算Unet模型部分的中间层和上采样层的交叉注意力图的控制损失、抑制损失和修补损失,并根据分层引导设计的能量函数计算损失再梯度回传更新潜在特征,从而在低分辩下结合控制损失与抑制损失的实现目标有效的布局控制,在中和高分辨率下结合控制损失与修补损失去确保目标形状控制。本发明提供的一种基于轨迹的目标精细控制的2D图像生成的分层引导方法,解决了基于轨迹的图像生成模型的不能够稳定控制布局和不能对目标精细控制的缺陷,同时不需要额外训练。
-
公开(公告)号:CN118312644A
公开(公告)日:2024-07-09
申请号:CN202410343867.0
申请日:2024-03-25
Applicant: 厦门大学
IPC: G06F16/783 , G06F16/78
Abstract: 本发明公开了一种评估和分析大型视觉语言模型中关系幻觉的方法及装置,涉及大型视觉语言模型技术领域。通过构建一种新的关系幻觉基准,专门用于评估大型视觉语言模型中的关系幻觉。该基准包括图像级问题和实例级问题,图像级问题用于评估图像中关系的存在,而实例级问题则用于评估局部视觉理解。问题的生成过程包括:解析所有的COCO字幕,以创建一个全面的关系集;将nocaps字幕提供的字幕解析后与关系集对齐,以建立一组关系种子;基于nocaps字幕、关系种子和边界框创建提示,然后利用大型语言模型LLM自动生成图像级和实例级问题。本发明通过大型语言模型LLM生成的生成图像级和实例级问题,从而可帮助评估和分析大型视觉语言模型的关系幻觉。
-
公开(公告)号:CN119107374A
公开(公告)日:2024-12-10
申请号:CN202411002424.1
申请日:2024-07-25
Applicant: 厦门大学
IPC: G06T11/00 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明公开一种基于轨迹的免训练图像生成方法、电子设备和存储介质,实现简单、用户友好、可控的图像生成,其包括:获取用户绘制的轨迹及其轨迹线段对应的控制文本标签,并获取文本提示;根据控制文本标签对各轨迹线段计算距离矩阵,对文本提示进行分词并提取文本特征,对轨迹的控制文本标签进行分词并计算其在文本提示被分词后的列表中的下标;初始化稳定扩散模型的潜在特征;根据控制文本标签的下标,对预训练的稳定扩散模型的Unet模型部分的特定层的交叉注意力分别计算各控制文本标签的控制损失和移动损失并梯度回传,然后基于稳定扩散模型无分类引导的去噪过程更新潜在特征;重复直至完成去噪,最后解码更新后的潜在特征得到生成图像。
-
-