一种由文本生成3D场景的方法、系统、介质及程序产品

    公开(公告)号:CN119027576A

    公开(公告)日:2024-11-26

    申请号:CN202410867945.7

    申请日:2024-07-01

    Applicant: 厦门大学

    Abstract: 本发明涉及一种由文本生成3D场景的方法,其首先使用一个轨迹扩散变换器作为摄影指导,根据文本描述来建模相机轨迹的分布;接下来,一个由高斯驱动的多视图潜变量扩散模型作为装饰者,根据相机轨迹和文本来建模图像序列分布。这个模型是从一个2D扩散模型微调而来,可以直接生成与像素对齐的3D高斯,作为直接的3D场景表现形式,用于三维一致的去噪;最后,这些3D高斯通过一种新颖的融合了2D扩散模型的先验知识的SDS++损失,作为细节优化者进一步细化得到真实的3D场景。

    一种基于采样自适应的连续NeRF的多视角3D目标检测方法

    公开(公告)号:CN118071999B

    公开(公告)日:2024-09-06

    申请号:CN202410460946.X

    申请日:2024-04-17

    Applicant: 厦门大学

    Abstract: 本发明提供一种基于采样自适应的连续NeRF的多视角3D目标检测方法,包括:将多视角姿势图像输入到2D主干网络得到2d特征;均匀采样整个场景中的空间坐标,得到原始的采样点;将该采样点投射到2d特征中得到多视角的特征体积,再通过多头权重融合方式得到空间特征;首次多头权重融合时,由空间特征直接处理得到场景特征,将场景特征输入到检测头预测偏移量,更新采样点和多视角的特征体积,再进行多头权重融合得到新的空间特征,与上一次的场景特征拼接后处理得到新的场景特征,将该场景特征输入到检测头再预测偏移量,更新采样点和多视角的特征体积,再次多头权重融合得到新的空间特征,再得到新的场景特征,输入到检测头中得到最终的3D边界框数据。

    一种基于采样自适应的连续NeRF的多视角3D目标检测方法

    公开(公告)号:CN118071999A

    公开(公告)日:2024-05-24

    申请号:CN202410460946.X

    申请日:2024-04-17

    Applicant: 厦门大学

    Abstract: 本发明提供一种基于采样自适应的连续NeRF的多视角3D目标检测方法,包括:将多视角姿势图像输入到2D主干网络得到2d特征;均匀采样整个场景中的空间坐标,得到原始的采样点;将该采样点投射到2d特征中得到多视角的特征体积,再通过多头权重融合方式得到空间特征;首次多头权重融合时,由空间特征直接处理得到场景特征,将场景特征输入到检测头预测偏移量,更新采样点和多视角的特征体积,再进行多头权重融合得到新的空间特征,与上一次的场景特征拼接后处理得到新的场景特征,将该场景特征输入到检测头再预测偏移量,更新采样点和多视角的特征体积,再次多头权重融合得到新的空间特征,再得到新的场景特征,输入到检测头中得到最终的3D边界框数据。

    一种基于单目图像的开放世界三维场景重建及感知方法

    公开(公告)号:CN117475105A

    公开(公告)日:2024-01-30

    申请号:CN202310556250.2

    申请日:2023-05-17

    Applicant: 厦门大学

    Abstract: 一种基于单目图像的开放世界三维场景重建及感知方法,涉及计算机视觉。包括场景感知、场景解耦、实例处理、实例重建、场景重组、场景感知信息融合。首先利用预训练感知模型对单目图像进行感知与实例分割;再通过填充等处理进行实例去遮挡,并再次进行实例感知得到其语义信息;再利用实例语义信息进行单目三维重建;最后通过场景和实例的感知信息计算得各实例在场景中的三维位置,并将实例重组为原始图像对应的三维场景,并通过重建出的实例三维模型计算场景中各实例的三维感知信息。有效处理开放世界场景中的实例数量不一、实例遮挡等问题,提高开放世界三维场景重建及感知的鲁棒性。

    一种基于混合编码器的描述子翻译及相似度度量方法

    公开(公告)号:CN110334363A

    公开(公告)日:2019-10-15

    申请号:CN201910630989.7

    申请日:2019-07-12

    Applicant: 厦门大学

    Abstract: 一种基于混合编码器的描述子翻译及相似度度量方法,涉及图像检索和描述子翻译。从用于训练的图像集中提取不同的手工或基于学习的多种描述子,以准备描述子翻译器的训练集,利用两两成对的特征对混合自编码器进行训练;训练从源特征到目标特征的映射的混合编码器,采用重构与翻译两路辅助训练解码器,编码器特有,解码器共享,得到翻译损失与重构损失;利用翻译损失与重构损失来度量两种描述子之间的相似度;对于待翻译的描述子,输入到相应的翻译器中,然后根据训练得到的翻译器对进行描述子翻译,所得结果置信度由相似度来衡量。突破基于不同描述子的检索系统间的检索壁垒,为不同系统间提供一个中转平台,便捷高效。

Patent Agency Ranking