LucidDreamer

介绍：LucidDreamer，可以从单个图像的单个文本提示中生成可导航的3D场景。单击并拖动（导航）/移动和滚动（缩放）以感受3D。

436 阅读 0 评论 73 点赞

前往官网

随着VR设备和3D内容的广泛应用，对3D场景生成技术的需求日益增加。然而，现有的3D场景生成模型通常局限于特定领域，因为它们使用的3D扫描数据集与现实世界存在较大差距。为解决这一问题，我们提出了LucidDreamer，这是一种无域场景生成管道，利用了现有大规模基于扩散的生成模型的强大功能。

LucidDreamer包含两个交替步骤：做梦和对齐。

首先，为了从输入生成多视图一致的图像，我们将点云设置为每次生成图像的几何参考。具体而言，我们将一部分点云投影到所需视图，并将其作为使用生成模型进行修复的指导。通过估计的深度图将绘制的图像提升至3D空间，从而形成新的点。

其次，为了将新点整合到3D场景中，我们提出了一种对齐算法，该算法能够将新生成的3D场景各部分和谐地集成在一起。最终得到的3D场景是由优化高斯飞溅构成的初始点。与之前的3D场景生成方法相比，LucidDreamer生成的高斯飞溅非常细致，且不受目标场景领域的限制。

LucidDreamer可以接受一系列文本提示来生成场景，从而实现细粒度的控制。

基于CLIP的Stable Diffusion生成的图像用于对生成的场景进行定量比较。我们使用CLIP-Score和CLIP-IQA与RGBD2对结果进行定量比较。对于CLIP-IQA，我们采用质量、色彩鲜艳和清晰度为标准。LucidDreamer在所有指标上均表现出主导优势。

根据初始SfM点的来源重建高斯飞溅的度量。我们使用COLMAP并比较重建结果。使用我们的点云始终如一地显示出更好的重建指标。

暂无评论