-
公开(公告)号:CN119648568A
公开(公告)日:2025-03-18
申请号:CN202411786947.X
申请日:2024-12-06
Applicant: 厦门大学
IPC: G06T5/70 , G06F40/289 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于轨迹的目标精细控制的2D图像生成的分层引导方法,涉及图像生成技术领域。所述方法通过设计分层引导机制计算Unet模型部分的中间层和上采样层的交叉注意力图的控制损失、抑制损失和修补损失,并根据分层引导设计的能量函数计算损失再梯度回传更新潜在特征,从而在低分辩下结合控制损失与抑制损失的实现目标有效的布局控制,在中和高分辨率下结合控制损失与修补损失去确保目标形状控制。本发明提供的一种基于轨迹的目标精细控制的2D图像生成的分层引导方法,解决了基于轨迹的图像生成模型的不能够稳定控制布局和不能对目标精细控制的缺陷,同时不需要额外训练。
-
公开(公告)号:CN119107374A
公开(公告)日:2024-12-10
申请号:CN202411002424.1
申请日:2024-07-25
Applicant: 厦门大学
IPC: G06T11/00 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明公开一种基于轨迹的免训练图像生成方法、电子设备和存储介质,实现简单、用户友好、可控的图像生成,其包括:获取用户绘制的轨迹及其轨迹线段对应的控制文本标签,并获取文本提示;根据控制文本标签对各轨迹线段计算距离矩阵,对文本提示进行分词并提取文本特征,对轨迹的控制文本标签进行分词并计算其在文本提示被分词后的列表中的下标;初始化稳定扩散模型的潜在特征;根据控制文本标签的下标,对预训练的稳定扩散模型的Unet模型部分的特定层的交叉注意力分别计算各控制文本标签的控制损失和移动损失并梯度回传,然后基于稳定扩散模型无分类引导的去噪过程更新潜在特征;重复直至完成去噪,最后解码更新后的潜在特征得到生成图像。
-
公开(公告)号:CN118351566A
公开(公告)日:2024-07-16
申请号:CN202410326072.9
申请日:2024-03-21
Applicant: 厦门大学
IPC: G06V40/10 , G06V10/764 , G06V10/52 , G06V10/25 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/094
Abstract: 本发明提供了人工智能技术领域的一种面向开集的人物交互检测方法,包括:步骤S1、获取人物图像以及候选文本集合,检测人物图像中的目标,输出目标的标签以及框坐标,将候选文本集合提取为文本嵌入;步骤S2、对人物图像进行编码,提取人物图像的全局视觉特征,基于全局视觉特征以及框坐标得到各目标的局部视觉特征;步骤S3、基于全局视觉特征以及局部视觉特征,从人物图像中提取目标至下而上的视觉特征;步骤S4、对视觉特征以及文本嵌入进行对齐训练,得到第一特征;步骤S5、对人物的动作进行对齐训练,得到第二特征;步骤S6、对第一特征、第二特征进行融合得到人物交互特征。本发明的优点在于:极大的提升了面向开集的人物交互检测精度。
-
公开(公告)号:CN118312644A
公开(公告)日:2024-07-09
申请号:CN202410343867.0
申请日:2024-03-25
Applicant: 厦门大学
IPC: G06F16/783 , G06F16/78
Abstract: 本发明公开了一种评估和分析大型视觉语言模型中关系幻觉的方法及装置,涉及大型视觉语言模型技术领域。通过构建一种新的关系幻觉基准,专门用于评估大型视觉语言模型中的关系幻觉。该基准包括图像级问题和实例级问题,图像级问题用于评估图像中关系的存在,而实例级问题则用于评估局部视觉理解。问题的生成过程包括:解析所有的COCO字幕,以创建一个全面的关系集;将nocaps字幕提供的字幕解析后与关系集对齐,以建立一组关系种子;基于nocaps字幕、关系种子和边界框创建提示,然后利用大型语言模型LLM自动生成图像级和实例级问题。本发明通过大型语言模型LLM生成的生成图像级和实例级问题,从而可帮助评估和分析大型视觉语言模型的关系幻觉。
-
公开(公告)号:CN119090003A
公开(公告)日:2024-12-06
申请号:CN202411002420.3
申请日:2024-07-25
Applicant: 厦门大学
Abstract: 本发明公开一种多模态大语言模型的免训练视觉提示方法、电子设备和存储介质,无需训练即可将视觉提示集成到多模态大语言模型中。首先,对于给定图像和文本,图像通过视觉编码器和多层感知机得到视觉特征,文本通过文本编码器得到文本特征,同时定义一个与视觉特征相同尺寸的可学习潜在变量;接着,将潜在变量与视觉特征相结合,并与文本特征一起通过大语言模型部分计算得到多个注意力权重矩阵,这些矩阵经过平均池化处理以形成最终的注意力权重矩阵;根据输入的视觉提示,使用相应的能量函数计算并更新潜在变量的值,此过程重复多次以优化潜在变量;最终,更新后潜在变量与视觉特征相结合,并与文本特征一起通过大语言模型产生模型响应。
-
公开(公告)号:CN115049844B
公开(公告)日:2024-06-04
申请号:CN202210759217.5
申请日:2022-06-29
Applicant: 厦门大学
Abstract: 一种增强视觉信息流的图像描述生成方法,涉及人工智能领域。使用Faster‑RCNN提取网格特征作为图片网格特征表示;使用一个全景分割网络提取分割图转换成二值图作为这张图片的分割特征表示;将网格特征与分割特征展平,线性变换后送入可迭代的独立的层正则化模块中融合;用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,送入解码器中,解码器以自回归的方式生成图像描述;在所有的多头注意力模块中加入额外的残差连接。提出一个双信息流模型,通过引入分割特征作为另一条视觉信息源增强视觉信息对模型输出预测贡献程度。增强模型预测对视觉信息的依赖程度,使得每个词预测更集中于视觉内容。
-
公开(公告)号:CN115049844A
公开(公告)日:2022-09-13
申请号:CN202210759217.5
申请日:2022-06-29
Applicant: 厦门大学
Abstract: 一种增强视觉信息流的图像描述生成方法,涉及人工智能领域。使用Faster‑RCNN提取网格特征作为图片网格特征表示;使用一个全景分割网络提取分割图转换成二值图作为这张图片的分割特征表示;将网格特征与分割特征展平,线性变换后送入可迭代的独立的层正则化模块中融合;用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,送入解码器中,解码器以自回归的方式生成图像描述;在所有的多头注意力模块中加入额外的残差连接。提出一个双信息流模型,通过引入分割特征作为另一条视觉信息源增强视觉信息对模型输出预测贡献程度。增强模型预测对视觉信息的依赖程度,使得每个词预测更集中于视觉内容。
-
-
-
-
-
-