深度估计是计算机视觉的基石,广泛应用于自动驾驶、机器人、AR/VR等领域。传统深度估计方法一直受限于一个根本性约束:它们只能在预设的离散像素网格上输出深度。
这导致了两个核心问题:
- 分辨率僵化: 训练时用的什么分辨率,输出基本就被锁定在什么分辨率,难以灵活适应不同需求。
- 细节丢失: 为了预测整个网格,往往需要通过卷积上采样或线性投影,这些操作会平滑掉高频的几何细节,导致物体边缘模糊、精细结构丢失。
来自浙江大学、理想汽车和深圳大学的研究团队提出了InfiniDepth。它将深度建模为神经隐式场,实现了真正意义上的任意分辨率、细粒度深度估计。
项目主页:zju3dv.github.io/InfiniDepth
核心思想:从离散网格到连续隐式场
想象一下,传统的深度图像就像一张由固定格子组成的“点阵图”,你只能知道每个格子中心的深度。而InfiniDepth的理念,则是学习一个连续的数学函数。给定任意一个图像上的连续坐标(x,y),这个函数都能直接输出该点的深度值。
InfiniDepth的数学模型简洁而强大:
深度=F(图像,坐标)
这里,F是一个由神经网络参数化的隐式函数。这种表示方式带来了根本性优势:
- 分辨率自由: 查询坐标是连续的,因此可以生成任意分辨率的深度图,从1K到16K甚至更高,无需重新训练模型。
- 细节友好: 预测是局部和连续的,能更好地捕捉像素之间的细微几何变化,恢复边缘、纹理等高频信息。
方法详解:如何实现“无限深度”
InfiniDepth的架构主要包含两个创新部分:
- 多尺度局部隐式解码器
如何为图像上的任意点提取特征?
- 特征金字塔构建:使用Vision Transformer(ViT)编码图像,并从不同层提取特征,构建一个蕴含从细节到语义的多尺度特征金字塔。
- 局部特征查询:对于任意查询坐标(x,y),在特征金字塔的每一层,通过双线性插值,从其周围一个小邻域内提取对齐的局部特征。
- 分层融合与解码:将这些多尺度局部特征从细到粗进行融合,最后通过一个轻量级MLP解码出精确的深度值。这个过程专注于局部上下文,完美适配细节恢复。
- 无限深度查询策略(创新应用点)
这项技术还解决了一个新视角合成(NVS)中的关键难题。传统方法将每个像素的深度反投影到3D时,由于透视投影(近大远小)和表面倾斜,会导致3D点云密度严重不均,从而在渲染新视角时产生空洞和伪影。
InfiniDepth的解决方案非常巧妙:
- 洞察: 每个像素在3D空间中代表的实际表面积不同。它取决于深度(与距离平方成正比)和表面法线方向(越倾斜,投影面积越大)。
- 策略: 利用隐式场可微分的特性,自动估算每个像素对应的3D微分面积,并以此作为权重,在像素内部自适应地分配更多亚像素查询点。
- 效果: 反投影后得到的是在物体表面均匀分布的3D点云,从而为后续的新视角合成提供了高质量的几何基础,显著减少了空洞。
全新基准测试集:Synth4K
为了公正地评估高分辨率、细粒度深度估计的能力,作者从五款3A游戏中,精心采集并构建了一个高质量的4K RGB-D基准测试集——Synth4K。
Synth4K的特点:
- 分辨率高:提供3840×2160的真值深度图。
- 细节丰富:涵盖复杂室内外场景,包含大量精细几何结构。
- 评估精准:通过计算多尺度拉普拉斯能量,生成了“高频细节掩码”,可以专门评估模型在边缘、角落等难区的性能。
实验结果:全面领先
在Synth4K和KITTI、NYUv2等真实数据集上的大量实验表明,InfiniDepth在相对深度估计和稀疏深度引导的度量深度估计任务上,均达到了最先进的性能。
量化指标领先:在Synth4K上,无论是全图还是高频细节区域,InfiniDepth在δ0.5,δ1,δ2等严格指标上均大幅领先于DepthAnything、MoGe、Marigold等强劲基线。
视觉质量出众:生成的深度图边缘锐利、细节清晰,点云更加稠密和均匀。
应用效果显著:结合高斯泼溅渲染器,InfiniDepth为单张图像新视角合成带来了质的提升,即使在大视角变换下,也能生成完整、伪影少的视角。
总结与展望
InfiniDepth的核心贡献在于思维的转变——将深度从离散的网格表示,解放为连续的隐式场表示。这不仅在理论上更加优雅,更在实践中带来了分辨率自由和细节增强的双重突破。
未来方向:
- 视频深度估计: 当前工作聚焦单帧,未来可扩展到视频,加入时间一致性约束。
- 多视图融合: 与多视图几何结合,进一步提升三维重建的精度和鲁棒性。
- 成为基础模块: 集成到更大的自动驾驶、机器人三维感知管道中。
InfiniDepth为高精度深度感知打开了新的大门,其“隐式场”的思想或许将启发更多视觉任务走向连续化、精细化的未来。