-
公开(公告)号:CN120014272A
公开(公告)日:2025-05-16
申请号:CN202510093896.0
申请日:2025-01-21
Applicant: 厦门大学
IPC: G06V10/26 , G06V20/70 , G06V10/44 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种基于语义一致性和风格多样性的域泛化语义分割方法,包括以下步骤:S1、基于CLIP视觉编码器和文本编码器进行视觉和文本特征提取;S2、基于语义查询增强器利用图文模态间的语义一致性,建立跨模态语义关联并聚合相关语义特征以增强初始对象查询;S3、基于文本驱动的风格变换模块利用文本嵌入差异,引导图像特征低频幅度谱的变换;S4、通过协同加权风格对比损失和风格聚合损失,加强领域间特征的分离和领域内特征的聚合;S5、基于掩码解码器使用语义查询逐层进行掩码预测、类别预测和查询细化;该方法在各个跨域数据集上实现了显著优于现有方法的最佳性能,同时保持模型的训练开销低、推理速度快,具有显著的实用价值和应用前景。
-
公开(公告)号:CN119762908A
公开(公告)日:2025-04-04
申请号:CN202411811506.0
申请日:2024-12-10
Applicant: 厦门大学
IPC: G06V10/774 , G06V10/764 , G06V10/772 , G06V10/776 , G06V10/82
Abstract: 本发明公开了一种高质量工业异常数据合成方法,包括以下步骤:S1、采用混合异常解耦模块,通过视觉语言模型进行多轮对话,对异常数据集中耦合的异常类别进行解耦,使耦合的异常类别转化为更细粒度的类别和属性;S2、采用高质量异常掩码生成模块,通过异常掩码生成器、引导区域Printer和异常掩码定位器,生成与各种属性对齐的、位置精确且形状正常的异常掩码;S3、采用自动异常数据集生成模块,通过Textual Inversion方法和自动过滤器,合成并筛选出了高质量的异常图像与掩码对;该方法通过混合异常解耦模块、高质量异常掩码生成模块和自动异常数据集生成模块实现高质量异常图像和掩码对的合成。
-
公开(公告)号:CN119649003A
公开(公告)日:2025-03-18
申请号:CN202411786950.1
申请日:2024-12-06
Applicant: 厦门大学
IPC: G06V10/25 , G06V10/764 , G06N3/096 , G06N3/045 , G06V10/44 , G06V10/80 , G06N3/084 , G06V10/74 , G06V10/762
Abstract: 本发明公开一种基于原型库特征挖掘的开放词汇目标检测方法、电子设备和存储介质,提高对新类别目标的检测性能,其包括一个类别泛化的区域提议网络CG‑RPN和类别特定的知识蒸馏方法CSKD,并包括:1、预处理待检测图片,再将预处理后的待检测图片及其对应的图片级别标签送入视觉语言模型VLM;2、由VLM对待检测图片进行特征提取和特征融合,将得到的特征图送入CG‑RPN中;CG‑RPN根据特征筛选样本框,根据分类得分为样本框分配标签并送入CSKD中;3、CSKD分别使用RoI head和VLM image encoder将样本框处理成两组特征,再使用类别特定的知识蒸馏方法从VLM中转移丰富的视觉语义知识;4、分类头和回归头根据RoI head生成的特征得到最终预测结果,由GT计算相关损失并反向传播至VLM以调整参数。
-
公开(公告)号:CN119417699A
公开(公告)日:2025-02-11
申请号:CN202411442824.4
申请日:2024-10-16
Applicant: 厦门大学
IPC: G06T3/4053 , G06T3/4046 , G06N3/0464 , G06N3/045 , G06N3/09 , G06N3/0475 , G06N3/094 , G06N3/096 , G06V10/44 , G06V10/52 , G06V10/80 , G06V10/82 , G06N3/048
Abstract: 本发明公开一种通过双域学习网络增强单图像超分辨率的方法、电子设备和存储介质,解决现有技术中在重建细节和纹理方面不足的问题,能够综合频率域和空间域信息,改进从低分辨率图像到高分辨率图像的重建质量。该方法包括:1、将一个低分辨率图像输入包含多个双域学习块的双域学习网络,通过多个双域学习块处理,生成两个超分辨率图像输出:一个是频率域输出,一个是空间域输出;步骤2、引入复数卷积鉴别器和交叉模态蒸馏损失以增强双域学习网络的性能,具体是:复数卷积鉴别器用于处理将图像从HSV色彩空间转换为复数形式的数据;交叉模态蒸馏损失作为损失函数,在模型训练过程中引导频率域和空间域输出的有效融合。
-
公开(公告)号:CN118710911A
公开(公告)日:2024-09-27
申请号:CN202410930124.3
申请日:2024-07-11
Applicant: 厦门大学
IPC: G06V10/26 , G06V10/75 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0895
Abstract: 本发明涉及一种基于多尺度学习的半监督实例分割方法、系统及存储介质,本发明对于两种尺度下预测的分类标签的角度以及掩膜的角度进行互相参考和纠正,再通过综合得分确定最终应当保留的伪标签,从而很好地对单一尺度上的伪标签进行数量上的补充以及质量上的提优。本发明还设计了面积适应的额外尺度学习策略,通过在额外的尺度下让模型分别学习大面积以及根据预测情况保留的小面积伪标签,有效提升额外下采样下的模型对于伪标签的学习效果。
-
公开(公告)号:CN118071999B
公开(公告)日:2024-09-06
申请号:CN202410460946.X
申请日:2024-04-17
Applicant: 厦门大学
IPC: G06V10/25 , G06V20/64 , G06V10/22 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/082
Abstract: 本发明提供一种基于采样自适应的连续NeRF的多视角3D目标检测方法,包括:将多视角姿势图像输入到2D主干网络得到2d特征;均匀采样整个场景中的空间坐标,得到原始的采样点;将该采样点投射到2d特征中得到多视角的特征体积,再通过多头权重融合方式得到空间特征;首次多头权重融合时,由空间特征直接处理得到场景特征,将场景特征输入到检测头预测偏移量,更新采样点和多视角的特征体积,再进行多头权重融合得到新的空间特征,与上一次的场景特征拼接后处理得到新的场景特征,将该场景特征输入到检测头再预测偏移量,更新采样点和多视角的特征体积,再次多头权重融合得到新的空间特征,再得到新的场景特征,输入到检测头中得到最终的3D边界框数据。
-
公开(公告)号:CN117058034A
公开(公告)日:2023-11-14
申请号:CN202311039192.2
申请日:2023-08-17
Applicant: 厦门大学
IPC: G06T5/00 , G06N3/0464 , G06N3/045 , G06N3/084
Abstract: 基于阴影复杂性感知神经网络的图像阴影去除方法,涉及计算机底层视觉。使用颜色风格多样性增强方法对训练集样本颜色风格变换后,送入灰度结构信息恢复分支,对图像的灰度结构信息进行恢复;结果与输入图像灰度图差异性判断阴影复杂性;颜色变换后的样本及灰度结构信息恢复分支的输出结果送入颜色信息恢复分支,恢复图像颜色信息;阴影复杂性高的图像在神经网络中经过更多参数处理;计算颜色信息恢复分支输出结果与无阴影图像之间的L1损失、感知损失和多出口蒸馏损失;将各个损失按不同比例加和,作为整个网络的损失反向传播,训练神经网络。可广泛用于图像阴影去除问题,提高训练模型泛化性,通过动态网络的思想降低模型的计算量。
-
公开(公告)号:CN109145135A
公开(公告)日:2019-01-04
申请号:CN201810878246.7
申请日:2018-08-03
Applicant: 厦门大学
CPC classification number: G06K9/6256 , G06K9/6268 , G06K2009/00322
Abstract: 一种基于主成分分析的人脸画像老化方法,首先将原始老化照片数据集中的照片由彩色图像变成灰度图像,然后再将原始老化照片数据集进行样本归一化,再主成分分析,计算每张照片对应的特征值,得老化照片数据集对应的照片参数集;根据年龄段样本划分,得不同年龄段对应的照片参数集,再求解平均参数;通过对照片参数集进行方差分析,筛选出与年龄相关的特征值,再研究不同年龄段对应的照片平均参数中与年龄相关的参数的变化规律;给定待老化画像,先对其进行样本归一,再对归一后的待老化画像进行主成分分析,计算对应的特征值,将与年龄相关的特征根据得到的变化规律进行修正,最后将修正后的特征值利用主成分重建策略得到对应的老化画像。
-
公开(公告)号:CN119741675A
公开(公告)日:2025-04-01
申请号:CN202411811492.2
申请日:2024-12-10
Applicant: 厦门大学
IPC: G06V20/58 , G06V20/70 , G06V10/82 , G06N3/0455
Abstract: 本发明公开了一种使用多帧和渲染监督的自动驾驶占用格预测方法,包括以下步骤:S1、将主视角图像的数据输入到GaussianFormer模型的处理流程,得到预测的空间中主视角语意高斯点云;再采用GaussianFormer模型的处理流程,得到主视角占用格预测损失;S2、将主视角语意高斯点云使用三维动态物体标注,转换得到辅助视角语意高斯点云;S3、采用GaussianFormer模型的处理流程,得到辅助视角占用格预测损失;S4、采用图像语意提取网络,得到主视角语意图和辅助视角语意图;S5、通过语意渲染,得到主视角语意渲染图和辅助视角语意渲染图;S6、联合使用主视角语意图和主视角语意渲染图以及辅助视角语意图和辅助视角语意渲染图,得到语意渲染损失。
-
公开(公告)号:CN119206162A
公开(公告)日:2024-12-27
申请号:CN202411027392.0
申请日:2024-07-30
Applicant: 厦门大学
IPC: G06V10/25 , G06V10/82 , G06V10/44 , G06V10/80 , G06N3/0464
Abstract: 本发明涉及一种基于频域方法的弱监督伪装目标检测方法、系统、介质及程序产品,其首先将主干网络提取的特征分解为高频和低频,然后,分别增强每组特征,并通过自底向上的粗到细策略逐步优化,有效地突出伪装目标的判别特征。对比弱监督伪装目标检测上现有的RGB方法,本发明在频域中更显著地突显出了伪装线索,使得伪装物体的边缘更易被察觉,具有更好的分割效果。此外,从频率域中捕获的信息可以弥补弱监督训练中稀疏注释的局限性。
-
-
-
-
-
-
-
-
-