-
公开(公告)号:CN117975241B
公开(公告)日:2024-09-20
申请号:CN202410370335.6
申请日:2024-03-29
Applicant: 厦门大学
Abstract: 本发明提供一种面向指向性目标分割的半监督学习方法,包括:将RES的三个主流数据集分别拆分为有标数据和无标数据,有标数据包含图文对和分割的真实掩码,无标数据只包含图文对;利用SAM离线地构建了一个分割掩码候选库,分割掩码候选库包含了对无标数据中无标图片的多尺度候选分割;在预热阶段:使用带标签的数据对预训练模型进行训练,训练结束后保存模型参数赋值给教师和学生模型;在师生迭代互相学习阶段:将无标图像输入教师模型得到伪标签,从分割掩码候选库中获取与伪标签最匹配的分割掩码替换伪标签,得到优化后的伪标签,以监督学生的训练;同时,有标数据继续有监督学习。本发明有效提高伪标签掩码质量,同时提高未标注数据的利用率。
-
公开(公告)号:CN113837231B
公开(公告)日:2024-02-27
申请号:CN202111005885.0
申请日:2021-08-30
Applicant: 厦门大学
IPC: G06V10/774 , G06V10/86 , G06F40/211 , G06F40/289 , G06N3/0464 , G06N3/08
Abstract: 一种基于混合样本与标签的数据增强的图像描述方法,涉及人工智能。1)采用目标检测器提取待描述图像的若干个候选区对应的特征;2)将步骤1)提取的图像特征按照服从beta分布的权值进行线性混合;3)将输入的语言数据以词嵌入的形式进行和步骤2)权值一样的线性混合;4)将混合后的图像特征和词嵌入输入到模型中,得到生成的句子;5)将生成的句子和被混合的两个图像的对应真实句子进行损失计算,采用一个混合的损失函数将两个损失值混合,并更新模型参数,实现数据增强,并用混合的输入和对应的混
-
公开(公告)号:CN117593527A
公开(公告)日:2024-02-23
申请号:CN202410073323.7
申请日:2024-01-18
Applicant: 厦门大学
IPC: G06V10/26 , G06V20/70 , G06V10/82 , G06F16/35 , G06F16/36 , G06N3/0442 , G06N3/0464 , G06N3/045 , G06N3/096
Abstract: 本发明提供了3D实例分割技术领域的一种基于链式感知的指向性3D实例分割方法,包括:步骤S1、基于物体感知模块、关系推理模块以及跨模态交互模块构建一链式感知模型;步骤S2、获取待分割的3D实例的文本表述,通过物体感知模块识别文本表述中提到的物体;步骤S3、通过关系推理模块分别从3D实例以及文本表述中提取空间信息和关系词,并对空间信息和关系词进行关系推理,得到各物体之间的第一关联关系;步骤S4、通过跨模态交互模块从3D实例提取实例特征,并挖掘实例特征与文本表述之间的第二关联关系;步骤S5、基于第一关联关系以及第二关联关系,对文本表述指向的3D实例进行分割。本发明的优点在于:极大的提升了3D实例分割精度。
-
公开(公告)号:CN117422969A
公开(公告)日:2024-01-19
申请号:CN202310211307.5
申请日:2023-03-07
Applicant: 厦门大学
Abstract: 基于Transformer结构的分层多尺度图像描述方法,涉及图像描述技术。针对现有的图像描述方法存在的视觉特征感知尺度单一,从而导致描述效果较差的缺点。提出一种多尺度的分层Transformer结构,可以利用多尺度的视觉特征信息完成准确的图像描述任务。为适应图像描述任务中的多尺度视觉特征设计三种新结构:跨尺度注意、对齐分配解码器和多尺度局部聚合。跨尺度注意是在不同尺度上实现全面的特征交互,并将特征转换为统一的张量形状。多尺度局部聚合的目的是聚合和增强多尺度特征,在此基础上进一步提出对齐分配解码器,自适应地选择最适合的特征尺度完成图像描述任务。
-
公开(公告)号:CN115861618A
公开(公告)日:2023-03-28
申请号:CN202211631302.X
申请日:2022-12-19
Applicant: 厦门大学
IPC: G06V10/26 , G06V10/82 , G06V10/52 , G06V10/80 , G06N3/045 , G06N3/0464 , G06N3/0895
Abstract: 一种端到端的全景叙事分割的单阶段方法,涉及全景叙事分割。包括步骤:1)用卷积神经网络对图像特征进行多尺度提取并且融合;利用基于变换器的双向编码器表示技术提取文本中的每个词向量,并且利用数据集注释过滤掉非名词部分的词向量,同时对于多个词向量同时对应一个名词的情况,采用取平均值的方法作为当前名词所对应的特征;2)将局部空间先验嵌入到注意力建模中,增强不同尺度的视觉特征,从而提高分割效果;3)用步骤2)提取的文本特征做卷积核,在得到的特征图上做卷积得到掩码M;使用一个双向对比学习损失规范模态间的语义一致性;同时加上其它的损失函数来使得预测掩码的数值和分布接近真实掩码。
-
公开(公告)号:CN113837231A
公开(公告)日:2021-12-24
申请号:CN202111005885.0
申请日:2021-08-30
Applicant: 厦门大学
IPC: G06K9/62 , G06F40/211 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 一种基于混合样本与标签的数据增强的图像描述方法,涉及人工智能。1)采用目标检测器提取待描述图像的若干个候选区对应的特征;2)将步骤1)提取的图像特征按照服从beta分布的权值进行线性混合;3)将输入的语言数据以词嵌入的形式进行和步骤2)权值一样的线性混合;4)将混合后的图像特征和词嵌入输入到模型中,得到生成的句子;5)将生成的句子和被混合的两个图像的对应真实句子进行损失计算,采用一个混合的损失函数将两个损失值混合,并更新模型参数,实现数据增强,并用混合的输入和对应的混合的目标来强化图像描述方法生成句子的多样性和判别性。具有很强的迁移性,能适用于现有大多数的图像描述模型,并都取得性能提升。
-
公开(公告)号:CN113837230A
公开(公告)日:2021-12-24
申请号:CN202111005878.0
申请日:2021-08-30
Applicant: 厦门大学
IPC: G06K9/62 , G06F40/242 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 基于自适应注意力机制的图像描述生成方法,属于人工智能技术领域。提出一个网格增强模块,引入网格位置之间的相对几何关系来增强网格特征。首先构造基于BERT的语言模型用于提取生成序列的语言信息,接着在transformer的解码器上方构造一个自适应注意力模块,用于在每个单词预测前充分度量视觉信息和语言信息的贡献,来生成更有区分度的图像描述。为证明提出的方法具有通用性,将这两个模型添加到初始的transformer结构上构造RSTNet,并在图像描述的基准数据集MS‑COCO上进行测试。提出的模型在线下MS‑COCO的Karpathy划分测试集和线上的MS‑COCO测试服务器上均取得最先进的性能。
-
公开(公告)号:CN119938874A
公开(公告)日:2025-05-06
申请号:CN202510436346.4
申请日:2025-04-09
Applicant: 厦门大学
IPC: G06F16/3329 , G06F40/126 , G06F40/279 , G06T9/00
Abstract: 本发明公开了一种基于多模态大语言模型的对话生成方法及装置,涉及对话生成领域,包括:获取查询语句和图像并输入到经微调的多模态大语言模型,图像输入到预训练的图像编码器中,得到多尺度编码特征和选定图像特征,多尺度编码特征经过多层聚合模块,提取得到低级图像特征和高级图像特征;将查询语句输入到文本编码器中,得到文本特征;将以上特征输入到模内及模间增强模块中进行增强,得到增强的图像特征并沿通道连接后经过多层感知机模块进行投影,得到视觉符元;将查询语句输入到预训练的分词器中进行分词,得到文本符元;将视觉符元和文本符元输入到经训练的大语言模型,生成回答语句。本发明解决现有的MLLM未考虑模内和模间相关性问题。
-
公开(公告)号:CN119356995A
公开(公告)日:2025-01-24
申请号:CN202411189118.3
申请日:2024-08-28
Applicant: 厦门大学
IPC: G06F11/34 , G06F11/30 , G06N3/0455 , G06N3/0475 , G06N3/08 , G06T11/00 , G06T11/60 , G06T5/60 , G06T5/73 , G06T5/77 , G06T5/90
Abstract: 本发明公开一种用于评估基于指令的图像编辑模型的性能的方法,能够全面地评估基于指令的图像编辑模型。本发明提出I2EBench评估标准,包括:步骤1、从现有的公开数据集中随机搜集至少2000张原始图像,并对原始图像进行标注编辑指令,编辑指令的数量至少为4000条,并通过ChatGPT对编辑指令进行多样化处理,由此构建评估数据集;步骤2、将评估数据集输入待评估的各个基于指令的图像编辑模型,基于8个高级编辑维度、8个低级编辑维度共16个编辑维度对这些图像编辑模型进行评估,计算基准评估得分;步骤3、通过问卷进行用户调研,获取用户对于模型的图像编辑效果的排名并计算人类评估得分;将基准评估得分与人类评估得分进行对比,计算两者之间的相关度。
-
公开(公告)号:CN119107374A
公开(公告)日:2024-12-10
申请号:CN202411002424.1
申请日:2024-07-25
Applicant: 厦门大学
IPC: G06T11/00 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明公开一种基于轨迹的免训练图像生成方法、电子设备和存储介质,实现简单、用户友好、可控的图像生成,其包括:获取用户绘制的轨迹及其轨迹线段对应的控制文本标签,并获取文本提示;根据控制文本标签对各轨迹线段计算距离矩阵,对文本提示进行分词并提取文本特征,对轨迹的控制文本标签进行分词并计算其在文本提示被分词后的列表中的下标;初始化稳定扩散模型的潜在特征;根据控制文本标签的下标,对预训练的稳定扩散模型的Unet模型部分的特定层的交叉注意力分别计算各控制文本标签的控制损失和移动损失并梯度回传,然后基于稳定扩散模型无分类引导的去噪过程更新潜在特征;重复直至完成去噪,最后解码更新后的潜在特征得到生成图像。
-
-
-
-
-
-
-
-
-