一种使用多帧和渲染监督的自动驾驶占用格预测方法

    公开(公告)号:CN119741675A

    公开(公告)日:2025-04-01

    申请号:CN202411811492.2

    申请日:2024-12-10

    Applicant: 厦门大学

    Abstract: 本发明公开了一种使用多帧和渲染监督的自动驾驶占用格预测方法,包括以下步骤:S1、将主视角图像的数据输入到GaussianFormer模型的处理流程,得到预测的空间中主视角语意高斯点云;再采用GaussianFormer模型的处理流程,得到主视角占用格预测损失;S2、将主视角语意高斯点云使用三维动态物体标注,转换得到辅助视角语意高斯点云;S3、采用GaussianFormer模型的处理流程,得到辅助视角占用格预测损失;S4、采用图像语意提取网络,得到主视角语意图和辅助视角语意图;S5、通过语意渲染,得到主视角语意渲染图和辅助视角语意渲染图;S6、联合使用主视角语意图和主视角语意渲染图以及辅助视角语意图和辅助视角语意渲染图,得到语意渲染损失。

    由文本生成层次化3D场景的方法、电子设备和存储介质

    公开(公告)号:CN119478225A

    公开(公告)日:2025-02-18

    申请号:CN202411548463.1

    申请日:2024-11-01

    Applicant: 厦门大学

    Abstract: 由文本生成层次化3D场景的方法、电子设备和存储介质,包括以下步骤:初始化多层次3D高斯,随机选择相机角度进行可微渲染,得到多层次高斯渲染图;将随机噪声加入多层次高斯渲染图,将待生成的3D场景的提示文本和加噪后的多层次高斯渲染图输入预训练的多层次图像扩散模型以预测噪声;对预测的噪声和随机噪声使用分数蒸馏损失迭代优化,并将分数蒸馏损失的梯度反向传递到多层次3D高斯,得到最终的多层次3D场景。能实现复杂的层次化场景级3D生成。

    一种预训练的视觉语言模型的少样本微调方法、装置及可读介质

    公开(公告)号:CN119445288A

    公开(公告)日:2025-02-14

    申请号:CN202411556564.3

    申请日:2024-11-04

    Applicant: 厦门大学

    Abstract: 本发明公开了一种预训练的视觉语言模型的少样本微调方法、装置及可读介质,包括:构建微调数据集、构建预训练的视觉语言模型以及特征对齐模块和局部缓存模块,预训练的视觉语言模型包括图像编码器、文本编码器和特征聚合模块;基于微调数据集并通过特征对齐模块和局部缓存模块对预训练的视觉语言模型进行微调,得到对比预训练的视觉语言模型和最后一次更新后的存储矩阵。先通过特征对比模块将全局特征和局部特征转换到文本嵌入空间,通过局部缓存模块封装从图像分支的局部特征中提取细粒度的语义信息,之后这些细粒度的语义信息会与相应的文本嵌入进行拼接,随后通过特征聚合模块融合全局和局部信息,以增强文本分支的表示能力。

    一种由文本生成3D场景的方法、系统、介质及程序产品

    公开(公告)号:CN119027576A

    公开(公告)日:2024-11-26

    申请号:CN202410867945.7

    申请日:2024-07-01

    Applicant: 厦门大学

    Abstract: 本发明涉及一种由文本生成3D场景的方法,其首先使用一个轨迹扩散变换器作为摄影指导,根据文本描述来建模相机轨迹的分布;接下来,一个由高斯驱动的多视图潜变量扩散模型作为装饰者,根据相机轨迹和文本来建模图像序列分布。这个模型是从一个2D扩散模型微调而来,可以直接生成与像素对齐的3D高斯,作为直接的3D场景表现形式,用于三维一致的去噪;最后,这些3D高斯通过一种新颖的融合了2D扩散模型的先验知识的SDS++损失,作为细节优化者进一步细化得到真实的3D场景。

    基于双旋转局部不一致性学习的半监督伪装目标检测方法

    公开(公告)号:CN118247607B

    公开(公告)日:2024-09-06

    申请号:CN202410658185.9

    申请日:2024-05-27

    Applicant: 厦门大学

    Abstract: 本发明公开一种基于双旋转局部不一致性学习的半监督伪装目标检测方法,针对于“伪装目标数据的像素级标注耗时耗力,半监督学习提供了潜在解决方案,但是直接将成功的半监督范式迁移到伪装目标检测任务上,面临伪标签存在局部性噪声的问题,即同一伪标签内不同区域噪声程度不同,直接用带噪声伪标签进行监督会损害模型性能”的问题,基于经典的半监督学习教师‑学生范式,同时提出了一种新颖的双旋转局部不一致性学习。双旋转局部不一致性学习通过不同旋转视图的局部预测不一致对同一伪标签不同区域赋予不同权重来缓解局部噪声问题,帮助模型自适应调整不同质量伪标签的贡献,使伪装目标检测模型获得充分监督的同时,避免确认偏差。

    一种基于特征扩展性学习的弱监督目标定位方法

    公开(公告)号:CN113838130B

    公开(公告)日:2023-07-18

    申请号:CN202111004064.5

    申请日:2021-08-30

    Applicant: 厦门大学

    Inventor: 曹刘娟 陈志威

    Abstract: 一种基于特征扩展性学习的弱监督目标定位方法,涉及计算机图像视觉处理。提供基于弱监督的训练方式以低成本的图像标注,以仅有的弱标签信息获取更好的特征,达到比较好的训练结果的一种基于特征扩展性学习的弱监督目标定位方法。包括如下步骤:1)对待检测的图片进行预处理,然后将预处理后待检测的图片及其对应的图片级别的标签送入神经网络;2)神经网络对图片进行处理,在训练过程中输出待检测图片对应每一个类别的概率数值,在测试过程中输出待检测图片预测的框的坐标、类别、得分。通过擦除来促进整体目标定位,并通过最大凸显学习来提高分类性能的准确性;将从多个平行定位头中学习到的目标区域动态地与接收场的有向扩展相结合。

    一种基于少样本学习的开放世界目标检测方法

    公开(公告)号:CN116229101A

    公开(公告)日:2023-06-06

    申请号:CN202310198831.3

    申请日:2023-03-03

    Applicant: 厦门大学

    Abstract: 一种基于少样本学习的开放世界目标检测方法,属于图像处理领域。基于少样本学习的开放世界目标检测任务,在类别不可知的目标检测中引入少样本学习方法,提供少量未知类别的样本,指导网络实现对于新类别的检测与未知类别的定位。提供基于少样本学习的开放世界目标检测的网络OFDet,在两阶段微调范式下的类别不可知的物体检测器上建模。OFDet由三个模块组成:类别不可知目标检测模块CALM、基础分类模块BCM以及新类别的检测模块NDM。为选择更准确的未知物体,提出基于未知候选框的选择算法。在已有的多个已有任务上性能良好,在新设定的OFOD任务上,对于未知类别的平均召回率达到最好效果,同时获得较高新类别平均精度。

    一种面向高效的开放词汇全景分割方法

    公开(公告)号:CN120032371A

    公开(公告)日:2025-05-23

    申请号:CN202510109507.9

    申请日:2025-01-23

    Applicant: 厦门大学

    Abstract: 本发明公开了一种面向高效的开放词汇全景分割方法,包括以下步骤:S1、基于多尺度特征提取器和轻量级聚合器进行视觉特征提取和聚合;S2、利用文本编码器对任意类别词汇进行编码,得到文本嵌入 S3、基于词汇感知选择模块提升视觉聚合特征的语义理解,减轻掩码解码器的特征交互负担;S4、基于双向动态嵌入专家,通过动态分配专家权重,生成具有语义感知和空间感知的实例嵌入;S5、基于轻量级解码器,使用对象核逐层进行掩码预测和细化,利用对象核和文本嵌入进行点积作为类别预测;该方法在实现相当性能的同时,旨在减少模型计算开销、加快推理速度,具有显著的实用价值和应用前景。

    无需训练、无需显示修复的带有相机控制的视频生成方法

    公开(公告)号:CN119996853A

    公开(公告)日:2025-05-13

    申请号:CN202510105755.6

    申请日:2025-01-23

    Applicant: 厦门大学

    Abstract: 本发明公开一种无需训练、无需显示修复的带有相机控制的视频生成方法,使得普通基座模型也能具备相机控制能力,该方法在潜在空间中操作,无需额外的修复模型和深度估计模型,实现了简洁轻量化。该视频生成方法在去噪过程中的特定时间步#imgabs0#对每一帧的潜在变量执行重排列操作;通过改变潜在变量的排列顺序模拟特定的摄像机动作;随后,在潜在空间中应用了重采样策略对新视角区域进行填充,同时结合跨帧融合对齐策略,确保采样过程在帧与帧之间保持一致性;引入了一种噪声重注入机制,通过在去噪后期将噪声重新注入潜在变量中,延长去噪时间,缓解因重排列、重采样而造成的分布偏移现象,有效提高了视频生成质量。

Patent Agency Ranking