-
公开(公告)号:CN119027576A
公开(公告)日:2024-11-26
申请号:CN202410867945.7
申请日:2024-07-01
Applicant: 厦门大学
Abstract: 本发明涉及一种由文本生成3D场景的方法,其首先使用一个轨迹扩散变换器作为摄影指导,根据文本描述来建模相机轨迹的分布;接下来,一个由高斯驱动的多视图潜变量扩散模型作为装饰者,根据相机轨迹和文本来建模图像序列分布。这个模型是从一个2D扩散模型微调而来,可以直接生成与像素对齐的3D高斯,作为直接的3D场景表现形式,用于三维一致的去噪;最后,这些3D高斯通过一种新颖的融合了2D扩散模型的先验知识的SDS++损失,作为细节优化者进一步细化得到真实的3D场景。
-
公开(公告)号:CN118071999B
公开(公告)日:2024-09-06
申请号:CN202410460946.X
申请日:2024-04-17
Applicant: 厦门大学
IPC: G06V10/25 , G06V20/64 , G06V10/22 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/082
Abstract: 本发明提供一种基于采样自适应的连续NeRF的多视角3D目标检测方法,包括:将多视角姿势图像输入到2D主干网络得到2d特征;均匀采样整个场景中的空间坐标,得到原始的采样点;将该采样点投射到2d特征中得到多视角的特征体积,再通过多头权重融合方式得到空间特征;首次多头权重融合时,由空间特征直接处理得到场景特征,将场景特征输入到检测头预测偏移量,更新采样点和多视角的特征体积,再进行多头权重融合得到新的空间特征,与上一次的场景特征拼接后处理得到新的场景特征,将该场景特征输入到检测头再预测偏移量,更新采样点和多视角的特征体积,再次多头权重融合得到新的空间特征,再得到新的场景特征,输入到检测头中得到最终的3D边界框数据。
-
公开(公告)号:CN117953180A
公开(公告)日:2024-04-30
申请号:CN202410346795.5
申请日:2024-03-26
Applicant: 厦门大学
IPC: G06T17/20 , G06T15/04 , G06T15/06 , G06T15/08 , G06T15/20 , G06T5/70 , G06T5/60 , G06N3/0455 , G06N3/0475 , G06N3/08 , G06N5/04
Abstract: 本发明提供了计算机视觉技术领域的一种基于双模式潜变量扩散的文本到三维物体生成方法,包括如下步骤:步骤S10、利用二维隐变量扩散模型联合训练一个双模式多视图隐变量扩散模型;步骤S20、获取待生成三维物体的文本,基于效率与一致性权衡策略,利用所述双模式多视图隐变量扩散模型对文本进行推理,生成第一三维物体;步骤S30、对所述第一三维物体的曲面纹理进行优化,生成第二三维物体。本发明的优点在于:极大的提升了三维物体生成的质量以及速度。
-
公开(公告)号:CN117953180B
公开(公告)日:2024-10-08
申请号:CN202410346795.5
申请日:2024-03-26
Applicant: 厦门大学
IPC: G06T17/20 , G06T15/04 , G06T15/06 , G06T15/08 , G06T15/20 , G06T5/70 , G06T5/60 , G06N3/0455 , G06N3/0475 , G06N3/08 , G06N5/04
Abstract: 本发明提供了计算机视觉技术领域的一种基于双模式潜变量扩散的文本到三维物体生成方法,包括如下步骤:步骤S10、利用二维隐变量扩散模型联合训练一个双模式多视图隐变量扩散模型;步骤S20、获取待生成三维物体的文本,基于效率与一致性权衡策略,利用所述双模式多视图隐变量扩散模型对文本进行推理,生成第一三维物体;步骤S30、对所述第一三维物体的曲面纹理进行优化,生成第二三维物体。本发明的优点在于:极大的提升了三维物体生成的质量以及速度。
-
公开(公告)号:CN118071999A
公开(公告)日:2024-05-24
申请号:CN202410460946.X
申请日:2024-04-17
Applicant: 厦门大学
IPC: G06V10/25 , G06V20/64 , G06V10/22 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/082
Abstract: 本发明提供一种基于采样自适应的连续NeRF的多视角3D目标检测方法,包括:将多视角姿势图像输入到2D主干网络得到2d特征;均匀采样整个场景中的空间坐标,得到原始的采样点;将该采样点投射到2d特征中得到多视角的特征体积,再通过多头权重融合方式得到空间特征;首次多头权重融合时,由空间特征直接处理得到场景特征,将场景特征输入到检测头预测偏移量,更新采样点和多视角的特征体积,再进行多头权重融合得到新的空间特征,与上一次的场景特征拼接后处理得到新的场景特征,将该场景特征输入到检测头再预测偏移量,更新采样点和多视角的特征体积,再次多头权重融合得到新的空间特征,再得到新的场景特征,输入到检测头中得到最终的3D边界框数据。
-
公开(公告)号:CN117475105A
公开(公告)日:2024-01-30
申请号:CN202310556250.2
申请日:2023-05-17
Applicant: 厦门大学
Abstract: 一种基于单目图像的开放世界三维场景重建及感知方法,涉及计算机视觉。包括场景感知、场景解耦、实例处理、实例重建、场景重组、场景感知信息融合。首先利用预训练感知模型对单目图像进行感知与实例分割;再通过填充等处理进行实例去遮挡,并再次进行实例感知得到其语义信息;再利用实例语义信息进行单目三维重建;最后通过场景和实例的感知信息计算得各实例在场景中的三维位置,并将实例重组为原始图像对应的三维场景,并通过重建出的实例三维模型计算场景中各实例的三维感知信息。有效处理开放世界场景中的实例数量不一、实例遮挡等问题,提高开放世界三维场景重建及感知的鲁棒性。
-
公开(公告)号:CN110334363A
公开(公告)日:2019-10-15
申请号:CN201910630989.7
申请日:2019-07-12
Applicant: 厦门大学
Abstract: 一种基于混合编码器的描述子翻译及相似度度量方法,涉及图像检索和描述子翻译。从用于训练的图像集中提取不同的手工或基于学习的多种描述子,以准备描述子翻译器的训练集,利用两两成对的特征对混合自编码器进行训练;训练从源特征到目标特征的映射的混合编码器,采用重构与翻译两路辅助训练解码器,编码器特有,解码器共享,得到翻译损失与重构损失;利用翻译损失与重构损失来度量两种描述子之间的相似度;对于待翻译的描述子,输入到相应的翻译器中,然后根据训练得到的翻译器对进行描述子翻译,所得结果置信度由相似度来衡量。突破基于不同描述子的检索系统间的检索壁垒,为不同系统间提供一个中转平台,便捷高效。
-
-
-
-
-
-