认识Make-it-3D:从单一图像生成高保真三维物体的人工智能(AI)框架

249 阅读3分钟

想象力是人类的一个强大机制。当看到一张图片时,人类有一种非凡的能力来想象所描述的物体从不同的角度看会是什么样子。虽然这种操作对我们的大脑来说似乎很简单,但对计算机视觉和深度学习模型来说却相当具有挑战性。事实上,由于单一视角的信息有限,从单一图像中生成三维物体是一项复杂的任务。

为此,人们提出了各种方法,包括3D照片效果和神经渲染的单视角3D重建。然而,这些方法在重建精细的几何形状和渲染大视角方面有局限性。

其他技术包括将输入的图像投射到预先训练好的3D感知生成网络的潜在空间中。然而,这些网络往往只限于特定的物体类别,无法处理一般的三维物体。此外,建立一个多样化的数据集来估计新的视图或一个强大的一般物体的三维基础模型,目前是一个不可逾越的挑战。

图像是广泛可用的,而三维模型仍然稀缺。扩散模型的最新进展,如Midjourney或稳定扩散,使二维图像合成取得显著进展。耐人寻味的是,训练有素的图像扩散模型可以从不同的视角生成图像,这表明它们已经吸收了三维知识。

🚀 在AI工具俱乐部中查看100种AI工具

在这一观察的基础上,本文提出的论文探讨了利用二维扩散模型中的这种隐性三维知识来重建三维物体的可能性。为此,我们提出了一个两阶段的方法,称为Make-It-3D,通过利用扩散先验,从单一图像中生成高质量的3D内容。

架构概述如下。

在第一阶段,扩散先验通过利用分数蒸馏采样(SDS)帮助改善神经辐射场(NeRF)。此外,参考视角的监督被用作优化的约束条件。与以往注重文本描述的文本-3D方法不同,Make-it-3D优先考虑3D模型对参考图像的保真度,因为其目标是基于图像的3D创建。

然而,虽然用SDS生成的三维模型与文本描述很一致,但它们往往不能忠实地与参考图像保持一致,因为参考图像并没有捕捉到所有的物体细节。为了克服这个问题,模型被要求最大限度地提高参考图像和由扩散模型去噪的新视图渲染之间的相似度。

由于图像本身包含比文字描述更多的几何相关信息,参考图像的深度可以作为一个额外的几何先验,以减轻NeRF优化在形状方面的模糊性。

最初的三维模型生成过程阶段产生一个具有合理几何形状的粗糙模型。然而,它的外观往往缺乏参考图像的质量,具有过度光滑的纹理和饱和的颜色。

因此,有必要通过减少粗糙模型和参考图像之间的差距来进一步提高模型的真实性。由于纹理对于高质量的渲染来说比几何图形更重要,第二阶段的重点是纹理的增强,同时保留第一阶段的几何图形。最后的改进包括利用参考图像中可见区域的地面真实纹理,这些区域是通过将NeRF模型和纹理映射到点云和体素而得到的。

这种方法的结果与其他最先进的技术进行了比较。下面描述了从上述工作中提取的一些样本。

这是对Make-it-3D的总结,这是一个用于从单一图像生成高保真3D物体的人工智能框架。