-
公开(公告)号:CN119516098A
公开(公告)日:2025-02-25
申请号:CN202411392309.X
申请日:2024-10-08
Applicant: 厦门大学
IPC: G06T17/00 , G06T15/00 , G06T5/50 , G06V20/58 , G06V20/64 , G06V10/26 , G06V10/82 , G06N3/0455 , G06N3/09
Abstract: 本发明公开了一种自动驾驶场景自适应单物体三维重建以及图像点云合成方法,涉及自动驾驶场景数据生产技术领域。所述方法包括:将目标物体在三维空间中的box的每一个顶点分别投射到每一帧上,然后进行图像分割,将分割物体之外的部分的不透明度置为0后作为训练的输入,并且用不透明度对于物体进行监督;结合Scaffold‑GS的参数以及相机的自适应参数进行渲染,得到渲染图像,计算训练损失对高斯点云进行更新;将训练场景和目标场景的第一帧的相机位姿进行对齐,来确定目标物体摆放的位置,然后对目标物体进行渲染,得到多视角物体图像,能够直接与目标场景图像进行粘贴的处理。本发明生成无边缘模糊的单物体三维表示,实现在目标场景中对于该物体的渲染。
-
公开(公告)号:CN119515682A
公开(公告)日:2025-02-25
申请号:CN202411442828.2
申请日:2024-10-16
Applicant: 厦门大学
IPC: G06T3/4053 , G06V10/80 , G06V10/44 , G06N3/0464
Abstract: 本发明公开一种基于动态频谱混合网络的用于单图像超分辨率的双域学习方法、电子设备和存储介质,有效整合空间域和频率域特征,以改进图像超分辨率的质量和适用性,包括:步骤1、在分解阶段,对于给定的输入图像分别通过步长#imgabs0#为#imgabs1#、#imgabs2#的卷积层来提取低频特征、高频特征;步骤2、低频特征通过#imgabs3#个级联的残差密集块后获得空间特征,高频特征通过#imgabs4#个级联的复值块后获得频率特征;步骤3、空间特征、频率特征分别由特征增强和选择单元进行增强和融合;步骤4、由动态特征融合编码器对于空间特征和频率特征通过单独但互连的路径进行处理,最终输出动态特征融合编码器输出的超分辨率图像。
-
公开(公告)号:CN118887665A
公开(公告)日:2024-11-01
申请号:CN202410837317.4
申请日:2024-06-26
Applicant: 厦门大学
IPC: G06V20/70 , G06V10/26 , G06T17/05 , G06T5/50 , G06V10/762 , G06V10/764 , G06V10/774 , G06V10/74 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于三维高斯场景的开放词汇语义分割方法及装置,涉及计算机视觉技术领域。首先训练不含有语义信息的三维高斯场景,然后对数据集的图片进行预处理,提取出语义特征图;然后利用语义特征图,在三维高斯场景中训练场景的开放词汇语义特征,输出每一个视角下的图片对应的预测特征图;训练完成后,将语义分割视作二分类,引入可优化的语义空间超平面,利用RES模型的预测结果来微调可优化的语义空间超平面,输出语义分割结果。本发明提供的一种基于三维高斯场景的开放词汇语义分割方法及装置,提出可优化的语义空间超平面方法,不需要基于经验设定的像素—文本相似度的阈值,又能实现相似度阈值的动态调整与更精确的分割效果。
-
公开(公告)号:CN118229964B
公开(公告)日:2024-10-08
申请号:CN202410652793.9
申请日:2024-05-24
Applicant: 厦门大学
IPC: G06V10/25 , G06V10/40 , G06V10/80 , G06V10/82 , G06V10/764 , G06V10/766
Abstract: 本发明公开一种基于全流水线改良的小目标检测方法,在目标检测流水线的三个阶段都进行了改进,综合提高了对小目标的检测性能,其包括以下步骤:对待检测图片进行预处理,然后将预处理后的待检测图片及其对应的标签送入神经网络;神经网络在检测流水线的上游对待检测图片进行特征提取和特征融合并进行提纯操作得到特征图;在检测流水线的中游使用IoU、位置偏移指标和尺寸约束指标共同为特征图的候选框评分并分配正标签和负标签;在检测流水线的下游,将分配好标签的训练样本和特征图一起送到频率解耦检测头中进行分类和回归,输出待检测图片中的待检测目标对应每一个类别的概率数值以及对应的位置信息。
-
公开(公告)号:CN118071999A
公开(公告)日:2024-05-24
申请号:CN202410460946.X
申请日:2024-04-17
Applicant: 厦门大学
IPC: G06V10/25 , G06V20/64 , G06V10/22 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/082
Abstract: 本发明提供一种基于采样自适应的连续NeRF的多视角3D目标检测方法,包括:将多视角姿势图像输入到2D主干网络得到2d特征;均匀采样整个场景中的空间坐标,得到原始的采样点;将该采样点投射到2d特征中得到多视角的特征体积,再通过多头权重融合方式得到空间特征;首次多头权重融合时,由空间特征直接处理得到场景特征,将场景特征输入到检测头预测偏移量,更新采样点和多视角的特征体积,再进行多头权重融合得到新的空间特征,与上一次的场景特征拼接后处理得到新的场景特征,将该场景特征输入到检测头再预测偏移量,更新采样点和多视角的特征体积,再次多头权重融合得到新的空间特征,再得到新的场景特征,输入到检测头中得到最终的3D边界框数据。
-
公开(公告)号:CN117475105A
公开(公告)日:2024-01-30
申请号:CN202310556250.2
申请日:2023-05-17
Applicant: 厦门大学
Abstract: 一种基于单目图像的开放世界三维场景重建及感知方法,涉及计算机视觉。包括场景感知、场景解耦、实例处理、实例重建、场景重组、场景感知信息融合。首先利用预训练感知模型对单目图像进行感知与实例分割;再通过填充等处理进行实例去遮挡,并再次进行实例感知得到其语义信息;再利用实例语义信息进行单目三维重建;最后通过场景和实例的感知信息计算得各实例在场景中的三维位置,并将实例重组为原始图像对应的三维场景,并通过重建出的实例三维模型计算场景中各实例的三维感知信息。有效处理开放世界场景中的实例数量不一、实例遮挡等问题,提高开放世界三维场景重建及感知的鲁棒性。
-
公开(公告)号:CN117173409A
公开(公告)日:2023-12-05
申请号:CN202311123978.2
申请日:2023-09-01
Applicant: 厦门大学
Abstract: 一种实时的交互式图像分割方法,涉及计算机视觉。采用一种全新的流程来处理交互分割问题,旨在提高交互式分割的计算效率。包括如下步骤:步骤1,在高性能设备上采用大型视觉模型并行预处理图像;步骤2,在低功耗设备上,轻量级的分割模块利用预处理的图像特征实时有效地响应标注器的输入,从图像中准确地分割出目标区域,并根据用户的反馈不断提高分割准确度。只需使用一个轻量级模块在低功耗设备上执行交互式分割,该模块将来自大模型的预处理特征与标注者的点击作为输入。在保持模型分割性能具有竞争力的同时,优化模型推理流程,提高计算效率。
-
公开(公告)号:CN116561368A
公开(公告)日:2023-08-08
申请号:CN202310662783.9
申请日:2023-06-06
Applicant: 厦门大学
IPC: G06F16/583 , G06F16/532 , G06F40/126 , G06V10/774 , G06V10/82
Abstract: 一种基于多任务训练的图像描述和问答方法,涉及计算机视觉和计算机语言。使用BLIP预训练模型,载入大规模图文数据集预训练;预处理图像描述数据和图像问答数据,使用标识符区分输入数据,图像描述、图像问答两个任务在同一框架下实现;构建多任务模型,使用多模态图像文本特征提取,图像经过视觉特征提取模块成为视觉向量,作为注意力输入到文本特征提取模块之中;文本使用LM损失函数,使模型学习文本的输出内容;根据模型训练的任务计算对应的损失函数及权重:动态学习分配多个任务的损失权重,调整最优学习方式。在同一个模型下实现图像描述和图像问答,可公用数据集,性能显著提升。产生的问答对捕捉更多图片细节,质量高。
-
公开(公告)号:CN108090926A
公开(公告)日:2018-05-29
申请号:CN201711494023.2
申请日:2017-12-31
Applicant: 厦门大学
IPC: G06T7/50
Abstract: 一种基于双重字典学习的深度估计方法,涉及三维重建领域。1)输入待估计深度图像的RGB图像 候选图像以及候选图像对应的深度图像 2)在中提取图像块 并在 的对应位置提取相同大小的图像块 根据已经获得的图像块,同时求解RGB图像字典Dim和深度图像字典Ddep;3)从原始输入的RGB图像中提取图像块 求得其对应的深度图像块4)将得到的深度图像块拼接为初始深度图根据数据集中图像结合MRF模型迭代求解原始输入的RGB图像的深度图像。
-
公开(公告)号:CN119919634A
公开(公告)日:2025-05-02
申请号:CN202411980224.3
申请日:2024-12-31
Applicant: 厦门大学
IPC: G06V10/25 , G06V10/22 , G06V10/764 , G06V10/40 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/096
Abstract: 一种基于多目标分类的开放词汇目标检测方法、系统、介质及程序产品,属于计算机视觉技术领域,该方法利用上下文信息,检测出训练集中没有出现的过的新的类别的物体,包括如下步骤:利用主干特征提取网络对图像进行特征提取得到特征图;区域建议网络在特征图中生成一组候选框,对所有候选框应用候选框拓展模块,得到扩展框;利用蒸馏模块从CLIP图像编码器中学习知识得到蒸馏损失;将候选框和扩展框提取的特征和文本特征输入多目标分类模块中,得到分类损失;结合蒸馏损失和分类损失对模型进行训练;最后,将待检测的图片输入到训练后的模型中,生成预测的目标区域和对应的类别名称及对应的置信度,以此实现更精准的开放词汇目标检测。
-
-
-
-
-
-
-
-
-