🔥开源代码已放出:github.com/facebookres…
只用3个“反直觉”操作,4B小模型干翻了一众专家模型!
你有没有遇到过这样的窘境?团队花了几周调优一个深度估计模型,加了各种花哨的解码器、复杂的回归损失、海量数据增强,结果一跑分——精度勉强涨了0.5%,而隔壁组用一个通用大模型,只改了3行推理代码,精度直接碾压你。
这听起来像爽文,但Meta和普林斯顿的最新研究告诉你:这不是梦。
长期以来,3D视觉领域被一种“专家迷信”统治着——深度估计需要专门的DPT解码器,像素匹配需要精细的多尺度特征扭曲,相机位姿估计得靠点轨迹和深度信号多任务联合优化……似乎不堆上十几个复杂模块,你就没资格谈精度。
但VLM³这篇工作直接掀了桌子。作者只用了三招——统一焦距、文本坐标、数据配比——就让一个标准VLM(视觉语言模型)在度量深度、物体3D问答、像素对应、相机位姿四大任务上,把一票专家模型按在地上摩擦。更离谱的是,他们用的模型只有4B参数,训练只用了32块GPU。
你可能会想:这怎么可能?标准VLM连像素在哪都指不明白吧?
这就带你扒开所有细节。
为什么99%的3D研究都在“用战术勤奋掩盖战略懒惰”?
我们先来直面一个扎心的事实:现有的3D视觉模型,无论是单目深度还是多视图匹配,几乎都踩进了同一个坑——把简单问题复杂化。
以单目深度估计为例。SOTA模型UniDepthV2的设计是这样的:一个视觉编码器提取特征,然后分出多个解码器头,分别预测深度、置信度、相机射线方向图;损失函数同时包含MSE、L1、边缘平滑损失,还要根据场景类型动态调权重;数据增强方面,几何增强(随机缩放、裁剪、平移)+光度增强(亮度、伽马、饱和度、色调偏移)一个不能少。
效果是好,但这种“全家桶”式设计带来了三个致命伤:
数据饥渴:每个任务都要独立的数据管线,想加一个新任务?对不起,从头训一遍。
架构膨胀:多个解码器头让模型体积暴涨,推理延迟翻倍。
玄学调参:损失权重的调整比炼丹还玄,换个数据集可能就要重新来过。
更让人窒息的是,大部分研究者似乎默认了一个潜规则——要搞3D,就得这么复杂。不堆模块就显得不够“专家”。
但你有没有想过:这些复杂设计,真的都是必需的?还是说,我们只是在用战术上的勤奋,掩盖战略上的懒惰?
VLM³的核心洞察恰恰击中了这个痛点——复杂的架构、损失、数据增强都不是3D学习的必要条件。真正卡脖子的,是三个被所有人忽视的底层问题。
读到这里,你是不是也开始反思自己的模型架构了?欢迎在评论区吐槽你见过最离谱的“过度设计”~
VLM³的三把利剑:简单到让你怀疑人生的3D学习范式
我们先通过一张架构总览图,快速建立全局认知。
图2清晰展示了VLM³与现有方法的根本差异。图(a)中的传统物体级3D模型需要额外编码器和模块;图(b)的DepthLM虽然能处理像素级深度,但必须渲染视觉标记(Render Marker)来指代像素,每换一个查询点就得重新跑一次图像编码,效率极低;而图(c)的VLM³,不改变VLM任何结构,不渲染任何标记,只靠文本坐标+统一焦距,就能同时回答多个3D问题。
这三把剑到底怎么舞?我们逐一解剖。
💡 第一剑:焦距统一——消除相机指纹
为什么不同相机拍的照片,同一个物体看起来可以完全不同?
答案藏在“焦距”这个参数里。简而言之,焦距决定了一张照片的“放大倍率”。同样是拍一个1米远的苹果,用广角镜头(短焦距)拍出来显得小而远,用长焦镜头(长焦距)拍出来显得大而近。如果VLM看到的训练数据来自不同焦距的相机,它就会陷入“相机歧义”——到底这个像素距离是5米还是10米?你没办法判断,因为它不知道相机的“缩放比例”。
VLM³的解决方案简单到让你大跌眼镜:把所有输入图像缩放到统一焦距=1000像素。
这可不是随便拍脑袋想的数字。1000像素焦距意味着,在图像坐标系中,焦距对应1000个像素单位。这样一来,图像中的每个像素在物理空间中就有了一个唯一的“地址”——它的坐标可以直接转化为方向向量,而不再依赖相机内参。
对于那些没有记录相机内参的图像(比如从网上爬的野生图片),作者直接用一个预训练的标定模型来估算焦距,然后照样统一。实验中,这个方法在物体级3D理解任务中完全可行。
💡 第二剑:文本坐标——让像素说人话
这是整个工作最精妙的设计,也是打破“必须改架构”魔咒的关键。
之前的DepthLM在处理像素查询时,采用的是“视觉提示”——在输入图像上直接渲染一个彩色标记点,让VLM“看到”你要问的是哪个像素。这有两个致命缺陷:
效率灾难:每换一个查询点,就需要重新渲染图像、重新跑VLM编码器。一张图想查10个像素的深度?对不起,请跑10次。
输出受限:你只能问“这个像素的深度是多少”,但无法让模型输出“那个像素在(1234, 567)”,因为输出是文本,不是像素标记。
VLM³的做法让你拍案叫绝——直接把像素坐标写成文本,然后归一化到[0, 2000)。
具体来说,如果图像的宽高是1920×1080,像素(960, 540)就写成“像素(1000, 1000)”,因为归一化到2000范围后,x=960/1920×2000=1000, y=540/1080×2000=1000。
你可能会问:归一化为啥是[0, 2000)而不是[0, 1)或[0, 100)?
这是因为VLM的tokenizer对整数坐标更友好。如果写成0.5这样的小数,tokenizer会切成多个不稳定的子词;而0-2000之间的整数,tokenizer通常直接保留为一个独立token,这让模型更容易学会坐标到空间位置的映射。
作者通过实验验证了这个设计的有效性:在800万张图像的消融实验中,文本坐标方案达到了0.853的深度估计准确率(δ1),仅比视觉提示方案的0.849低了0.004——考虑到效率提升和适用范围扩大,这个微小差距完全可以接受。
这个设计的真正威力在于:你可以在同一张图上打包无数个问题。想同时查10个像素的深度、问3个物体的空间关系、再估计一组对应点?全放进一个输入序列,一次推理全搞定。训练效率直接起飞。
💡 第三剑:数据配比——小模型的反直觉胜利
有了统一焦距和文本坐标后,VLM³的训练变得异常简单——就是标准的文本监督微调(SFT),Loss就是下一个token预测,没有任何花哨的回归损失。
但诡异的事情发生了:直接用所有数据均匀混合训练,效果反而比只训800万张图更差。为什么?
答案藏在数据过拟合里。作者的训练数据集包含多个来源——Argoverse2的街景深度、ScanNet++的室内扫描、Matterport3D的房间漫游……不同数据集的规模差异极大。最大的内部街景数据集有1000万张图,而某些专用数据集只有几万张。
如果均匀加权,小数据集会被4B参数的VLM快速背下来——毕竟VLM的记忆力足够记住几万张图的深度模式。一旦背下来,模型就失去了泛化能力,反而拉了整体精度的后腿。
VLM³的策略是:让数据配比成为核心调优对象。
比较三种配比策略:均匀加权(所有数据集权重相同)仅拿到0.842的δ1;按数据集大小加权(大集权重高)提升到0.884;而VLM³自定义的权重策略(进一步降低易过拟合小数据集的权重)直接干到0.904。
这也解释了一个反直觉的实验结论:4B模型比32B模型更强。
在32M训练样本下,4B模型拿到0.904,而32B大模型只拿到0.873。作者推测,这是因为当前数据规模对大模型仍然不足——参数越多,越容易背下数据中的噪声模式,反而丧失了真正的空间推理能力。
换句话说,在当前阶段,数据质量和配比的重要性,远大于模型规模。这或许给AI圈近年来“无脑堆参数”的风气敲了一记警钟。
一个标准VLM,如何同时玩转四个完全不同质的3D任务?
论证了核心设计后,我们来看看VLM³在实际任务中的表现。作者选择了四个任务来证明方法的通用性——它们分别对应单/多视图、语义/几何、离散/连续输出的不同组合,完全覆盖了3D理解的多样性。
🔄 度量深度估计:纯文本预测,精度追平专家
深度估计的输入是单张RGB图+若干查询像素坐标,输出是每个像素到相机的实际距离(单位:米)。
作者的训练数据比DepthLM多了1000万张户外街景图,总计2600万张。每个样本打包10个查询像素(相比DepthLM的1个),标注密度提升10倍,训练效率却不降反升(因为不需要反复渲染标记)。
训练效率有多高?DepthLM需要用128块H100训2天,而VLM³只需32块GPU训3天——GPU小时数从6144降到2304,只有原来的37%。
最终效果如何?我们直接看SOTA对比表。
表1的数据让所有VLM方法汗颜。在8个深度估计测试集上,VLM³-4B的平均δ1达到0.904,相比最强的VLM方法DepthLM-7B(0.838)提升了7.9%。在个别数据集上的差距更为夸张——iBims1上从0.756跃升到0.835,NYUv2上从0.908提升到0.953。
更重要的是,VLM³只有4B参数,而DepthLM-7B几乎是其两倍。小模型逆袭大模型,这在深度估计领域几乎闻所未闻。
那跟专家模型比呢?
表2显示,VLM³-4B的深度估计已经匹配甚至超越部分专家模型。在NuScenes数据集上,δ1达0.926,超过UniDepthV2(0.898)和MoGe-2(0.917);在iBims1上,0.835的成绩同样超越两位专家。
换作一年前,谁能想到一个不改架构、不加回归损失的文本生成模型,能在度量深度上吊打专门设计的回归模型?
🔄 物体级3D理解:不编码物体区域,照样学会空间关系
这个任务考验的是模型对场景中物体的空间推理能力。给定一张图,问“物体A在物体B的什么方向?”或“物体C有多高?”
传统方法SpatialRGPT-8B的做法是:设计一个额外的物体编码器,把每个物体区域从图像中裁剪出来,单独编码成特征向量,然后和文本Promp混在一起输入VLM。这样做的好处是物体引用更精确(不用依赖文本中的类别名称),但代价是需要额外模块。
VLM³的做法一如既往地简单:直接用边界框坐标文本指代物体。比如“物体[(348, 1018), (1006, 1996)]在物体[(244, 476), (1402, 1784)]的什么方向?”然后模型回答“大约在1点钟方向”。
训练数据只有100万张图,用32块GPU训3小时就搞定。对比SpatialRGPT-8B需要额外模块+更大模型才能达到的精度,VLM³-4B反而在定性和定量任务上都更胜一筹(定性准确率91.35% vs未见数据,定量整体得分58.51)。
你觉得这个设计思路够颠覆吗?点赞支持我们继续深挖更多硬核解读!
🔄 像素对应匹配:从10倍误差到超越专项模型
像素对应的任务是:给两张不同视角的图像,第一张图上指定一个像素,找出它在第二张图上的对应位置。
这是多视图几何的基础任务,传统方法极其依赖复杂的多尺度特征匹配和对极几何约束。
VLM³-4B面对这个任务的表现让人惊掉下巴:基础VLM(Qwen3-vl-4B)在没有专项训练前,EPE(像素误差)超过150;而经过VLM³训练后,EPE直接降到15.37——降低了整整10倍。更夸张的是,这个成绩已经优于RoMa(EPE 17.2)和DKM(EPE 18.1)等专项模型。
这意味着什么?标准VLM不仅学会了几何对应,而且学得比专门设计的几何匹配模型更好。这几乎是宣告:未来3D视觉的统一架构,大概率是VLM,而不是那些五花八门的专家网络。
🔄 相机位姿估计:从5%到94%准确率的暴力飞跃
相机位姿估计更是离谱到让人怀疑论文数据是不是造假——基线VLM在ETH3D和ScanNet++上的AUC30(位姿误差在30°以内的比例)只有5%左右,基本等于瞎猜;而VLM³-4B训完,这个数字飙到了94%。
94%是什么概念?这与DA3-Giant(94.7%)几乎平起平坐,超越了VGGT(88.5%)和MapAnything(约90%)。而DA3-Giant是一个用了复杂回归损失+多任务监督+海量数据增强的专家系统——VLM³只是一个输出文本的4B小模型。
具体输出示例是这样的:
问题: 估计相机旋转角。 答案: 偏航=+40.6°,俯仰=+15.1°,横滚=+20.1°
问题: 估计相机平移距离。 答案: 平移量=3.41米
一个纯文本生成模型,直接输出了三元欧拉角和公制尺度下的平移量,而且精度匹敌专项回归模型——这在整个计算视觉历史上,是从未有过的范式突破。
为什么这个发现如此震撼?
因为相机位姿估计长期被认为是“天生不适合文本模型”的任务。传统方法要么靠几何优化(先匹配像素对应→解本质矩阵→分解RT),要么靠回归网络直接输出6DoF向量。所有的方法论都建立在连续数值回归的基础上。
而VLM³用下一个token预测这种离散采样范式,居然达到了同等精度。这暗示了一个重要结论:离散的文本空间,表达能力可能远超我们的认知。只要把问题表述清楚,把输出格式定义好,VLM就能学会任何复杂的连续映射。
如果你此时也感到脊背发凉,欢迎在评论区分享你的震撼~
最终章:实验数据和可视化,让数字说话
看完了任务拆解,我们集中火力看完整的实验数据。
🏆 SOTA全方位对比:一张表说明所有问题
表1中VLM³-4B在所有4大类任务、所有测试集上全面超越所有VLM基线。特别注意几个关键数字:
深度估计****平均δ1=0.904:比DepthLM-7B(0.838)提升了0.066,差距足以写一篇论文。
物体级3D定性准确率91.35%:超越SpatialRGPT-8B,且不需要额外模块。
像素对应EPE=15.37:比RoMa/DKM低了近10%,也就是说像素坐标预测更精确。
相机姿态AUC30=94.0%:与最强专家DA3-Giant(94.7%)仅差0.7个百分点,彻底碾压其他方法。
表2的数据更加耐人寻味。与专家模型的正面硬刚中,VLM³在多项任务上要么超越,要么打平:
深度估计的δ1与MoGe-2、UniDepthV2处于同一梯队,NuScenes和iBims1上甚至拔得头筹。
像素对应的EPE(15.37)低于DKM(19.42)和RoMa(18.19),只落后UFM(12.55)——而UFM是专门为此任务高度优化的模型。
相机姿态AUC30超越VGGT(88.5%)和MapAnything(~90%),与DA3-Giant(94.7%)几乎持平。
一个“不改架构+不加损失+不用数据增强”的4B小模型,跟一群“特化设计+多任务训练+海量增强”的专家打平甚至反超——这说明什么?
这说明专家模型的那些复杂设计,很可能不是精度来源,而是历史包袱。他们之所以需要多解码器、多任务监督、复杂损失权重,是因为他们的基础架构(视觉编码器+任务特定头)本身就缺乏空间理解能力,必须靠外部约束来“硬教”。而VLM通过海量图文预训练已经内化了丰富的空间先验,只需要焦距统一和文本坐标来“唤醒”这些能力。
🔬 消融实验:每个设计决策究竟贡献了多少?
为了厘清各组件的贡献,作者做了系统消融,结果汇总在表3。
表3的左栏验证了文本坐标 vs 视觉提示的等价性。在800万图像+单QA的基线上,文本坐标(0.853)略优于视觉提示(0.849),虽然差距很小,但考虑到文本坐标带来的效率提升和任务适用性扩展,这一设计取舍毫无悬念。
中栏的数据混合对比是关键。均匀加权(0.842)和按数据集大小加权(0.884)之间差了0.042——仅调整配比就带来了相当于模型规模翻倍的收益。VLM³自定义权重在此基础上再拔高到0.904,累计提升7.4%。这说明在数据异构的大规模训练中,配比策略的影响力甚至超过模型架构改动。
右栏的模型规模和训练数据量缩放实验更耐人寻味。4B在32M样本下达到0.904,而32B大模型在相同数据下只有0.873——降了0.031。作者进一步把4B模型的训练数据加到64M,发现精度反而回落到更低水平。
什么信号?在当前的2600万图像规模下,数据量才是瓶颈,模型容量早就过剩了。更大的模型只会更快地过拟合训练集,记住噪声而不是学会空间推理。
这意味着,如果你的团队资源有限,现在最聪明的策略不是训更大的VLM,而是花精力整理高质量、多源、多样化的训练数据,并精心设计数据配比。
可视化的冲击力:眼见为实
说再多数字也不如看图直观。我们来通过图3感受VLM³的实际输出质量。
深度行(第二行):室内场景的点云结构完整,墙壁、地板、家具的深度层次分明;室外街景中,远处建筑和近处车辆的深度梯度平滑自然。特别值得注意的是,多个物体交界处没有出现“飞点”(漂浮在空中的错误深度点)——这是专家深度模型常见的artifact,VLM³却凭借极低的归纳偏置自动避免了。
物体行(第一行):空间关系的判断(“behind”)和物理尺寸的估计(宽度)都相当准确。红色边界框标注的物体和文本描述完全对应,说明文本坐标指代没有歧义。
对应行(第三行):两条彩色匹配线(绿色端点和黄色端点)精确连接了左右视图中对应的像素点。室内墙壁纹理和室外建筑边缘的匹配都经得起逐像素检查。
姿态行(第四行):绿色相机表示GT位姿,红色表示VLM³预测。两者在3D空间中几乎重合,旋转和平移参数在数值上也高度一致(例如偏航一个是+40.6°,一个是+40.6°,俯仰相差仅0.4°)。
看完这些可视化,你还认为VLM只是“文本生成器”吗?它分明已经学会了看懂三维世界。
⚖️ 客观评价:局限性与未来方向
任何方法都有短板,VLM³也不例外。
首先,训练数据仍然是瓶颈。实验显示即使是4B小模型也会在2600万图上过拟合,而专家模型通常需要更大数据量才能充分释放潜力。当前开源3D数据的规模和质量都远逊于2D图文数据,这是整个领域的共同挑战。
其次,像素对应和相机位姿虽然超越多数专家模型,但距最强专项模型(如UFM)仍有差距。作者也坦言,进一步的缩放和更精细的数据配比有望缩小这个差距,但方法本身的极限在哪里,目前仍是未知数。
第三,所有实验基于Qwen3-vl基座。VLM³的方法是否同样适用于其他VLM架构(如LLaVA、Gemini),还需验证。不过从原理上看,焦距统一和文本坐标都是与架构无关的技术,跨基座泛化应该问题不大。
未来最值得期待的方向,作者已经在结论中暗示了——构建一个覆盖所有3D任务的统一基础模型。既然VLM³证明了单个VLM能同时学好深度、匹配、位姿、空间推理,那把所有3D任务的数据混合起来训一个“3D通用VLM”,不就是顺理成章的下一步吗?
如果这个方向走通,那么今天的3D视觉生态将被彻底重塑——不再需要为每个任务单独设计模型、维护数据管线、调优超参数。一个基础VLM,通过不同的Prompt,就能胜任从自动驾驶感知到AR位姿跟踪的所有3D需求。
你认为这个愿景多久能实现?评论区说说你的判断!
🌟 价值总结
这篇文章带给我们三个核心启示:
- 简单是一种力量。VLM³没有增加任何复杂度,反而移除了所有非必要的设计,却实现了SOTA。这提醒我们:在被复杂方案包围时,更应该追问“什么是真正必需的”。
- 数据配比是沉默的杀手。同样是32M样本,不同配比能差出6个点的δ1精度。然而大多数论文只用一句话“我们混合了多个数据集”带过配比设计,从不深入讨论。VLM³告诉你:配比不是细节,是核心。
- VLM的时代已经来了。当纯文本SFT能匹敌专家回归模型时,“视觉任务必须用视觉专用头”的教条就该被重新审视了。VLM正从语义理解渗透到几何理解,而且每次都是降维打击式的碾压。
🤔 深度思考: 你认为VLM最可能率先颠覆哪个3D应用场景?自动驾驶?AR/VR?还是工业检测?欢迎在评论区留下你的观点!
💝 支持原创: 如果本文帮到了你,点赞+收藏就是最好的支持!分享给你的技术伙伴,一起见证VLM的3D革命!
#AI技术 #深度学习 #3D视觉 #VLM #技术干货 #论文解读
参考
VLM³: Vision Language Models Are Native 3D Learners