Meta又放大招！VLM³：4B秒杀8B专家模型，VLM用文字搞定3D理解，效率暴涨！Meta与普林斯顿证明标准视觉语言

只用3个“反直觉”操作，4B小模型干翻了一众专家模型！

你有没有遇到过这样的窘境？团队花了几周调优一个深度估计模型，加了各种花哨的解码器、复杂的回归损失、海量数据增强，结果一跑分——精度勉强涨了0.5%，而隔壁组用一个通用大模型，只改了3行推理代码，精度直接碾压你。

这听起来像爽文，但Meta和普林斯顿的最新研究告诉你：这不是梦。

长期以来，3D视觉领域被一种“专家迷信”统治着——深度估计需要专门的DPT解码器，像素匹配需要精细的多尺度特征扭曲，相机位姿估计得靠点轨迹和深度信号多任务联合优化……似乎不堆上十几个复杂模块，你就没资格谈精度。

但VLM³这篇工作直接掀了桌子。作者只用了三招——统一焦距、文本坐标、数据配比——就让一个标准VLM（视觉语言模型）在度量深度、物体3D问答、像素对应、相机位姿四大任务上，把一票专家模型按在地上摩擦。更离谱的是，他们用的模型只有4B参数，训练只用了32块GPU。

你可能会想：这怎么可能？标准VLM连像素在哪都指不明白吧？

这就带你扒开所有细节。

为什么99%的3D研究都在“用战术勤奋掩盖战略懒惰”？

我们先来直面一个扎心的事实：现有的3D视觉模型，无论是单目深度还是多视图匹配，几乎都踩进了同一个坑——把简单问题复杂化。

以单目深度估计为例。SOTA模型UniDepthV2的设计是这样的：一个视觉编码器提取特征，然后分出多个解码器头，分别预测深度、置信度、相机射线方向图；损失函数同时包含MSE、L1、边缘平滑损失，还要根据场景类型动态调权重；数据增强方面，几何增强（随机缩放、裁剪、平移）+光度增强（亮度、伽马、饱和度、色调偏移）一个不能少。

效果是好，但这种“全家桶”式设计带来了三个致命伤：

数据饥渴：每个任务都要独立的数据管线，想加一个新任务？对不起，从头训一遍。

架构膨胀：多个解码器头让模型体积暴涨，推理延迟翻倍。

玄学调参：损失权重的调整比炼丹还玄，换个数据集可能就要重新来过。

更让人窒息的是，大部分研究者似乎默认了一个潜规则——要搞3D，就得这么复杂。不堆模块就显得不够“专家”。

但你有没有想过：这些复杂设计，真的都是必需的？还是说，我们只是在用战术上的勤奋，掩盖战略上的懒惰？

VLM³的核心洞察恰恰击中了这个痛点——复杂的架构、损失、数据增强都不是3D学习的必要条件。真正卡脖子的，是三个被所有人忽视的底层问题。

读到这里，你是不是也开始反思自己的模型架构了？欢迎在评论区吐槽你见过最离谱的“过度设计”～

VLM³的三把利剑：简单到让你怀疑人生的3D学习范式

我们先通过一张架构总览图，快速建立全局认知。

图2清晰展示了VLM³与现有方法的根本差异。图(a)中的传统物体级3D模型需要额外编码器和模块；图(b)的DepthLM虽然能处理像素级深度，但必须渲染视觉标记（Render Marker）来指代像素，每换一个查询点就得重新跑一次图像编码，效率极低；而图(c)的VLM³，不改变VLM任何结构，不渲染任何标记，只靠文本坐标+统一焦距，就能同时回答多个3D问题。

这三把剑到底怎么舞？我们逐一解剖。

💡 第一剑：焦距统一——消除相机指纹

为什么不同相机拍的照片，同一个物体看起来可以完全不同？

答案藏在“焦距”这个参数里。简而言之，焦距决定了一张照片的“放大倍率”。同样是拍一个1米远的苹果，用广角镜头（短焦距）拍出来显得小而远，用长焦镜头（长焦距）拍出来显得大而近。如果VLM看到的训练数据来自不同焦距的相机，它就会陷入“相机歧义”——到底这个像素距离是5米还是10米？你没办法判断，因为它不知道相机的“缩放比例”。

VLM³的解决方案简单到让你大跌眼镜：把所有输入图像缩放到统一焦距=1000像素。

这可不是随便拍脑袋想的数字。1000像素焦距意味着，在图像坐标系中，焦距对应1000个像素单位。这样一来，图像中的每个像素在物理空间中就有了一个唯一的“地址”——它的坐标可以直接转化为方向向量，而不再依赖相机内参。

对于那些没有记录相机内参的图像（比如从网上爬的野生图片），作者直接用一个预训练的标定模型来估算焦距，然后照样统一。实验中，这个方法在物体级3D理解任务中完全可行。

💡 第二剑：文本坐标——让像素说人话

这是整个工作最精妙的设计，也是打破“必须改架构”魔咒的关键。

之前的DepthLM在处理像素查询时，采用的是“视觉提示”——在输入图像上直接渲染一个彩色标记点，让VLM“看到”你要问的是哪个像素。这有两个致命缺陷：

效率灾难：每换一个查询点，就需要重新渲染图像、重新跑VLM编码器。一张图想查10个像素的深度？对不起，请跑10次。

输出受限：你只能问“这个像素的深度是多少”，但无法让模型输出“那个像素在(1234, 567)”，因为输出是文本，不是像素标记。

VLM³的做法让你拍案叫绝——直接把像素坐标写成文本，然后归一化到[0, 2000)。

具体来说，如果图像的宽高是1920×1080，像素(960, 540)就写成“像素(1000, 1000)”，因为归一化到2000范围后，x=960/1920×2000=1000, y=540/1080×2000=1000。

你可能会问：归一化为啥是[0, 2000)而不是[0, 1)或[0, 100)？

这是因为VLM的tokenizer对整数坐标更友好。如果写成0.5这样的小数，tokenizer会切成多个不稳定的子词；而0-2000之间的整数，tokenizer通常直接保留为一个独立token，这让模型更容易学会坐标到空间位置的映射。

作者通过实验验证了这个设计的有效性：在800万张图像的消融实验中，文本坐标方案达到了0.853的深度估计准确率（δ1），仅比视觉提示方案的0.849低了0.004——考虑到效率提升和适用范围扩大，这个微小差距完全可以接受。

这个设计的真正威力在于：你可以在同一张图上打包无数个问题。想同时查10个像素的深度、问3个物体的空间关系、再估计一组对应点？全放进一个输入序列，一次推理全搞定。训练效率直接起飞。

💡 第三剑：数据配比——小模型的反直觉胜利

有了统一焦距和文本坐标后，VLM³的训练变得异常简单——就是标准的文本监督微调（SFT），Loss就是下一个token预测，没有任何花哨的回归损失。

但诡异的事情发生了：直接用所有数据均匀混合训练，效果反而比只训800万张图更差。为什么？

答案藏在数据过拟合里。作者的训练数据集包含多个来源——Argoverse2的街景深度、ScanNet++的室内扫描、Matterport3D的房间漫游……不同数据集的规模差异极大。最大的内部街景数据集有1000万张图，而某些专用数据集只有几万张。

如果均匀加权，小数据集会被4B参数的VLM快速背下来——毕竟VLM的记忆力足够记住几万张图的深度模式。一旦背下来，模型就失去了泛化能力，反而拉了整体精度的后腿。

VLM³的策略是：让数据配比成为核心调优对象。

比较三种配比策略：均匀加权（所有数据集权重相同）仅拿到0.842的δ1；按数据集大小加权（大集权重高）提升到0.884；而VLM³自定义的权重策略（进一步降低易过拟合小数据集的权重）直接干到0.904。

这也解释了一个反直觉的实验结论：4B模型比32B模型更强。

在32M训练样本下，4B模型拿到0.904，而32B大模型只拿到0.873。作者推测，这是因为当前数据规模对大模型仍然不足——参数越多，越容易背下数据中的噪声模式，反而丧失了真正的空间推理能力。

换句话说，在当前阶段，数据质量和配比的重要性，远大于模型规模。这或许给AI圈近年来“无脑堆参数”的风气敲了一记警钟。

一个标准VLM，如何同时玩转四个完全不同质的3D任务？

论证了核心设计后，我们来看看VLM³在实际任务中的表现。作者选择了四个任务来证明方法的通用性——它们分别对应单/多视图、语义/几何、离散/连续输出的不同组合，完全覆盖了3D理解的多样性。

🔄 度量深度估计：纯文本预测，精度追平专家

深度估计的输入是单张RGB图+若干查询像素坐标，输出是每个像素到相机的实际距离（单位：米）。

作者的训练数据比DepthLM多了1000万张户外街景图，总计2600万张。每个样本打包10个查询像素（相比DepthLM的1个），标注密度提升10倍，训练效率却不降反升（因为不需要反复渲染标记）。

训练效率有多高？DepthLM需要用128块H100训2天，而VLM³只需32块GPU训3天——GPU小时数从6144降到2304，只有原来的37%。

最终效果如何？我们直接看SOTA对比表。

表1的数据让所有VLM方法汗颜。在8个深度估计测试集上，VLM³-4B的平均δ1达到0.904，相比最强的VLM方法DepthLM-7B（0.838）提升了7.9%。在个别数据集上的差距更为夸张——iBims1上从0.756跃升到0.835，NYUv2上从0.908提升到0.953。

更重要的是，VLM³只有4B参数，而DepthLM-7B几乎是其两倍。小模型逆袭大模型，这在深度估计领域几乎闻所未闻。

那跟专家模型比呢？

表2显示，VLM³-4B的深度估计已经匹配甚至超越部分专家模型。在NuScenes数据集上，δ1达0.926，超过UniDepthV2（0.898）和MoGe-2（0.917）；在iBims1上，0.835的成绩同样超越两位专家。

换作一年前，谁能想到一个不改架构、不加回归损失的文本生成模型，能在度量深度上吊打专门设计的回归模型？

🔄 物体级3D理解：不编码物体区域，照样学会空间关系

这个任务考验的是模型对场景中物体的空间推理能力。给定一张图，问“物体A在物体B的什么方向？”或“物体C有多高？”

传统方法SpatialRGPT-8B的做法是：设计一个额外的物体编码器，把每个物体区域从图像中裁剪出来，单独编码成特征向量，然后和文本Promp混在一起输入VLM。这样做的好处是物体引用更精确（不用依赖文本中的类别名称），但代价是需要额外模块。

VLM³的做法一如既往地简单：直接用边界框坐标文本指代物体。比如“物体[(348, 1018), (1006, 1996)]在物体[(244, 476), (1402, 1784)]的什么方向？”然后模型回答“大约在1点钟方向”。

训练数据只有100万张图，用32块GPU训3小时就搞定。对比SpatialRGPT-8B需要额外模块+更大模型才能达到的精度，VLM³-4B反而在定性和定量任务上都更胜一筹（定性准确率91.35% vs未见数据，定量整体得分58.51）。

你觉得这个设计思路够颠覆吗？点赞支持我们继续深挖更多硬核解读！

🔄 像素对应匹配：从10倍误差到超越专项模型

像素对应的任务是：给两张不同视角的图像，第一张图上指定一个像素，找出它在第二张图上的对应位置。

这是多视图几何的基础任务，传统方法极其依赖复杂的多尺度特征匹配和对极几何约束。

VLM³-4B面对这个任务的表现让人惊掉下巴：基础VLM（Qwen3-vl-4B）在没有专项训练前，EPE（像素误差）超过150；而经过VLM³训练后，EPE直接降到15.37——降低了整整10倍。更夸张的是，这个成绩已经优于RoMa（EPE 17.2）和DKM（EPE 18.1）等专项模型。

这意味着什么？标准VLM不仅学会了几何对应，而且学得比专门设计的几何匹配模型更好。这几乎是宣告：未来3D视觉的统一架构，大概率是VLM，而不是那些五花八门的专家网络。

🔄 相机位姿估计：从5%到94%准确率的暴力飞跃

相机位姿估计更是离谱到让人怀疑论文数据是不是造假——基线VLM在ETH3D和ScanNet++上的AUC30（位姿误差在30°以内的比例）只有5%左右，基本等于瞎猜；而VLM³-4B训完，这个数字飙到了94%。

94%是什么概念？这与DA3-Giant（94.7%）几乎平起平坐，超越了VGGT（88.5%）和MapAnything（约90%）。而DA3-Giant是一个用了复杂回归损失+多任务监督+海量数据增强的专家系统——VLM³只是一个输出文本的4B小模型。

具体输出示例是这样的：

问题： 估计相机旋转角。 答案： 偏航=+40.6°，俯仰=+15.1°，横滚=+20.1°

问题： 估计相机平移距离。 答案： 平移量=3.41米

一个纯文本生成模型，直接输出了三元欧拉角和公制尺度下的平移量，而且精度匹敌专项回归模型——这在整个计算视觉历史上，是从未有过的范式突破。

为什么这个发现如此震撼？

因为相机位姿估计长期被认为是“天生不适合文本模型”的任务。传统方法要么靠几何优化（先匹配像素对应→解本质矩阵→分解RT），要么靠回归网络直接输出6DoF向量。所有的方法论都建立在连续数值回归的基础上。

而VLM³用下一个token预测这种离散采样范式，居然达到了同等精度。这暗示了一个重要结论：离散的文本空间，表达能力可能远超我们的认知。只要把问题表述清楚，把输出格式定义好，VLM就能学会任何复杂的连续映射。

如果你此时也感到脊背发凉，欢迎在评论区分享你的震撼～

最终章：实验数据和可视化，让数字说话

看完了任务拆解，我们集中火力看完整的实验数据。

🏆 SOTA全方位对比：一张表说明所有问题

表1中VLM³-4B在所有4大类任务、所有测试集上全面超越所有VLM基线。特别注意几个关键数字：

深度估计****平均δ1=0.904：比DepthLM-7B（0.838）提升了0.066，差距足以写一篇论文。

物体级3D定性准确率91.35%：超越SpatialRGPT-8B，且不需要额外模块。

像素对应EPE=15.37：比RoMa/DKM低了近10%，也就是说像素坐标预测更精确。

相机姿态AUC30=94.0%：与最强专家DA3-Giant（94.7%）仅差0.7个百分点，彻底碾压其他方法。

表2的数据更加耐人寻味。与专家模型的正面硬刚中，VLM³在多项任务上要么超越，要么打平：

深度估计的δ1与MoGe-2、UniDepthV2处于同一梯队，NuScenes和iBims1上甚至拔得头筹。

像素对应的EPE（15.37）低于DKM（19.42）和RoMa（18.19），只落后UFM（12.55）——而UFM是专门为此任务高度优化的模型。

相机姿态AUC30超越VGGT（88.5%）和MapAnything（~90%），与DA3-Giant（94.7%）几乎持平。

一个“不改架构+不加损失+不用数据增强”的4B小模型，跟一群“特化设计+多任务训练+海量增强”的专家打平甚至反超——这说明什么？

这说明专家模型的那些复杂设计，很可能不是精度来源，而是历史包袱。他们之所以需要多解码器、多任务监督、复杂损失权重，是因为他们的基础架构（视觉编码器+任务特定头）本身就缺乏空间理解能力，必须靠外部约束来“硬教”。而VLM通过海量图文预训练已经内化了丰富的空间先验，只需要焦距统一和文本坐标来“唤醒”这些能力。

🔬 消融实验：每个设计决策究竟贡献了多少？

为了厘清各组件的贡献，作者做了系统消融，结果汇总在表3。

表3的左栏验证了文本坐标 vs 视觉提示的等价性。在800万图像+单QA的基线上，文本坐标（0.853）略优于视觉提示（0.849），虽然差距很小，但考虑到文本坐标带来的效率提升和任务适用性扩展，这一设计取舍毫无悬念。

中栏的数据混合对比是关键。均匀加权（0.842）和按数据集大小加权（0.884）之间差了0.042——仅调整配比就带来了相当于模型规模翻倍的收益。VLM³自定义权重在此基础上再拔高到0.904，累计提升7.4%。这说明在数据异构的大规模训练中，配比策略的影响力甚至超过模型架构改动。

右栏的模型规模和训练数据量缩放实验更耐人寻味。4B在32M样本下达到0.904，而32B大模型在相同数据下只有0.873——降了0.031。作者进一步把4B模型的训练数据加到64M，发现精度反而回落到更低水平。

什么信号？在当前的2600万图像规模下，数据量才是瓶颈，模型容量早就过剩了。更大的模型只会更快地过拟合训练集，记住噪声而不是学会空间推理。

这意味着，如果你的团队资源有限，现在最聪明的策略不是训更大的VLM，而是花精力整理高质量、多源、多样化的训练数据，并精心设计数据配比。

可视化的冲击力：眼见为实

说再多数字也不如看图直观。我们来通过图3感受VLM³的实际输出质量。

深度行（第二行）：室内场景的点云结构完整，墙壁、地板、家具的深度层次分明；室外街景中，远处建筑和近处车辆的深度梯度平滑自然。特别值得注意的是，多个物体交界处没有出现“飞点”（漂浮在空中的错误深度点）——这是专家深度模型常见的artifact，VLM³却凭借极低的归纳偏置自动避免了。

物体行（第一行）：空间关系的判断（“behind”）和物理尺寸的估计（宽度）都相当准确。红色边界框标注的物体和文本描述完全对应，说明文本坐标指代没有歧义。

对应行（第三行）：两条彩色匹配线（绿色端点和黄色端点）精确连接了左右视图中对应的像素点。室内墙壁纹理和室外建筑边缘的匹配都经得起逐像素检查。

姿态行（第四行）：绿色相机表示GT位姿，红色表示VLM³预测。两者在3D空间中几乎重合，旋转和平移参数在数值上也高度一致（例如偏航一个是+40.6°，一个是+40.6°，俯仰相差仅0.4°）。

看完这些可视化，你还认为VLM只是“文本生成器”吗？它分明已经学会了看懂三维世界。

⚖️ 客观评价：局限性与未来方向

任何方法都有短板，VLM³也不例外。

首先，训练数据仍然是瓶颈。实验显示即使是4B小模型也会在2600万图上过拟合，而专家模型通常需要更大数据量才能充分释放潜力。当前开源3D数据的规模和质量都远逊于2D图文数据，这是整个领域的共同挑战。

其次，像素对应和相机位姿虽然超越多数专家模型，但距最强专项模型（如UFM）仍有差距。作者也坦言，进一步的缩放和更精细的数据配比有望缩小这个差距，但方法本身的极限在哪里，目前仍是未知数。

第三，所有实验基于Qwen3-vl基座。VLM³的方法是否同样适用于其他VLM架构（如LLaVA、Gemini），还需验证。不过从原理上看，焦距统一和文本坐标都是与架构无关的技术，跨基座泛化应该问题不大。

未来最值得期待的方向，作者已经在结论中暗示了——构建一个覆盖所有3D任务的统一基础模型。既然VLM³证明了单个VLM能同时学好深度、匹配、位姿、空间推理，那把所有3D任务的数据混合起来训一个“3D通用VLM”，不就是顺理成章的下一步吗？

如果这个方向走通，那么今天的3D视觉生态将被彻底重塑——不再需要为每个任务单独设计模型、维护数据管线、调优超参数。一个基础VLM，通过不同的Prompt，就能胜任从自动驾驶感知到AR位姿跟踪的所有3D需求。

你认为这个愿景多久能实现？评论区说说你的判断！

🌟 价值总结

这篇文章带给我们三个核心启示：

简单是一种力量。VLM³没有增加任何复杂度，反而移除了所有非必要的设计，却实现了SOTA。这提醒我们：在被复杂方案包围时，更应该追问“什么是真正必需的”。
数据配比是沉默的杀手。同样是32M样本，不同配比能差出6个点的δ1精度。然而大多数论文只用一句话“我们混合了多个数据集”带过配比设计，从不深入讨论。VLM³告诉你：配比不是细节，是核心。
VLM的时代已经来了。当纯文本SFT能匹敌专家回归模型时，“视觉任务必须用视觉专用头”的教条就该被重新审视了。VLM正从语义理解渗透到几何理解，而且每次都是降维打击式的碾压。

🤔 深度思考： 你认为VLM最可能率先颠覆哪个3D应用场景？自动驾驶？AR/VR？还是工业检测？欢迎在评论区留下你的观点！

💝 支持原创： 如果本文帮到了你，点赞+收藏就是最好的支持！分享给你的技术伙伴，一起见证VLM的3D革命！

#AI技术 #深度学习 #3D视觉 #VLM #技术干货 #论文解读

参考

VLM³: Vision Language Models Are Native 3D Learners