再见了,所有的羊驼。
亚历山大王带队 9 个月从零重构 Meta 所有 AI 技术栈,在不断的质疑中交出超级智能实验室第一个模型:
主打原生多模态的 Muse Spark。
模型发布后,Meta 股价火速拉升约 7%,中间一度涨超近 10%,当日整体上涨 6% 左右。
市场的反应可谓相当热烈。
随手一扒你就会发现,这款模型背后藏着不少我们熟悉的高手:思维链作者 Jason Wei、o1 核心贡献者 Hyung Won Chung、被小扎天价挖来的余家辉、扩散模型核心人物宋飏……
嗯?当这群人凑在一起,很明显你就会找到一个关键词:推理。
没错,据 Jason Wei 爆料,9 个月前他们坐在一起讨论时,首先写下的就是一款用于推理的 llama 模型脚本,而现在,完全体终于诞生。
而顶尖高手 + 耗时 9 个月打磨,Muse Spark 也总算让 Meta 在第三方测评中赶上第一梯队,一雪 llama 4 带来的前耻。
而且很有意思的一点是,Meta 这次一反常态,没有反复强调自己拿了多少 SOTA,而是稍显克制地表示:
Muse Spark 在多模态感知、推理、健康和自主任务方面表现不错,但在编程和长时间自主运行方面仍与对家的顶尖模型存在差距。
咳咳,看来之前 llama 4 确实给 Meta 留下了心理阴影(doge)。
另外,Muse Spark 的出生也终于让长期以来有关 “Meta 开闭源” 的讨论盖棺定论:
这次是真闭源了。
目前这款模型已上线 Meta 网站和 APP,API 仅向部分合作伙伴开放。
(不过亚历山大王还是留了个口子,表示 “计划未来开源后续版本”)
“Meta 回来了”
老规矩,先看一波测评成绩。
作为 Meta 迄今最强大的模型,Muse Spark 这次主要在三个方面表现突出:
一是多模态理解能力。
不管是看论文图表还是屏幕,各项得分要么第一、要么和 Gemini 3.1 Pro、GPT 5.4 等不相上下。
从网友们的测试来看,它好像尤为擅长图片转代码。
当然文本能力也不差(doge),在网友的激情测试中,它就火速通过了新版弱智吧风格的洗车测试。
100 米外有个洗车店,我该开车去还是走路去。
Muse Spark:洗车当然要把车开过去,但没必要搞得跟上下班通勤似的。
(当然也不排除是数据污染的问题,毕竟问题出来也挺久了…)
再一个就是工具调用能力,测评情况也和多模态理解能力类似。
以及这次 Muse Spark 着重强调的医学能力。
由于和 1000 + 医生展开了合作,它不仅在开放式健康问答 HealthBench Hard 上拿到 42.8 的最高分,而且在多模态医学问答 MedXpertQA MM 中位居前列。
不过短板我们开头也说了,Muse Spark 仍在编程和 Agent 类任务上与其他顶尖选手存在差距。
可能也是为了尽量弥补这一点,他们这次还专门推出了 Contemplating 沉思模式。
主要是让多个 Agent 同时思考同一个问题,然后汇总结果找出最好的。
在这套打法下,Muse Spark 就能和 Gemini Deep Think、 GPT Pro 这类极限推理模式展开正面 PK 了。
比如在 “人类最后的考试” 中,Muse Spark 明显压过一头_(不过在物理奥赛理论题中还是略逊一筹)_。
(目前沉思模式正在 Meta 网站灰度测试)
另外值得一提的是,Meta 这次无预告直接上线了 “购物模式”。
亚历山大王表示,模型会结合用户在 ins、Facebook、Threads 上关注的创作者和品牌偏好,做个性化的购物推荐。
好好好,这次也不给你讨论的机会了,之前 OpenAI 可没少因为广告挨骂。
目前,随着 Muse Spark 测评一同出炉的,还有第三方机构的测评。
他们拿到 Muse Spark 的早期访问权测了一波,然后给出了一个结论:Meta 回来了!
在关键指标人工智能分析指数上,其得分仅次于 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6。
这也和 Muse Spark 自己给出的测评成绩差不多。
对外界而言,初步来看,Muse Spark 确实把 Meta 重新带回了人工智能第一梯队。
背后训练细节
至于 Muse Spark 是如何做到这一点的,Meta 也公布了背后的训练细节。
核心其实就是亚历山大王提到的:9 个月重构一切。
新的基础设施、新的架构、新的数据管道。
具体可以看网友给大家划的重点:
-
在预训练阶段,能够以比 Llama 4 少 10 倍以上的计算量达到相同的性能水平。
-
强化学习训练展现出平滑且可预测的改进,具有良好的泛化能力和可扩展性。
-
Test-time 阶段,在加入长度惩罚机制后,“思维压缩” 开始生效,模型学会了用更少的 token 解决问题。
Meta 在博客中介绍,过去 9 个月,他们对 Muse Spark 的预训练技术栈进行了全面升级。
所有改进的目标,都是为了让每一分算力都能产生更大的价值。
为了验证效果,他们做了一个对比实验:先用一系列小模型拟合出一条 “算力 - 能力” 的 Scaling 曲线,然后计算要达到某个性能水平具体需要多少算力。
结果发现,相比 Llama 4,Muse Spark 达到同样水平所需要的计算量低了一个数量级以上_(10.3 倍)_。
预训练完成后,他们进一步用强化学习来提升模型能力。
虽然大规模 RL 训练通常很不稳定,但他们声称自己的新架构做到了 “稳中有进”。
如下图所示,随着 RL 训练步数增加,模型在训练数据上的成功率_(无论是单次尝试还是 16 次中至少成功一次)_呈现对数线性增长。
这说明,RL 在提升可靠性的同时,没有破坏推理的多样性。
而且在模型从未见过的任务上,准确率同样在稳步提升——这说明 RL 带来的能力提升是可预测、可泛化的,不是死记硬背。
以及为了让模型在回答复杂问题之前先 “想一想”,团队仍用强化学习训练它具备这种“测试时推理” 能力。
不过需要注意,实践证明 Test-time 阶段的推理尤为耗费 token,所以如何精打细算也是这一阶段的重点。
对此,他们用了两个关键手段来平衡效果与效率:
一是思考时间惩罚。鼓励模型用更短的推理路径得出正确答案,倒逼它学会 “思维压缩”。
二是多智能体协作。让多个模型或模块协同工作,在保证响应速度不降的前提下提升整体表现。
然后在 AIME 这类高难度评测集上,他们观察到了一个有趣的 “三阶段变化”:
模型一开始会不自觉延长思考,希望通过拉长推理过程来提高正确率。
但这会马上触发 “思考时间惩罚”,于是模型被迫精简推理,学会用更少的 token 解决问题。
而在精简之后,模型还表现出了扩展性能——在高效的基础上继续优化解法,最终实现用更少的资源获得更强的性能表现。
也不乏翻车的
不过前面也说了,Muse Spark 虽然将 Meta 带回了第一梯队,但在编程、Agent 类任务上仍有不足。
这不,模型刚发布,翻车集锦也来了……
有人想用它生成网站,结果 3 个请求一个都没实现,而且连最基本的前端都无。
不过后来贴主发现可能是偶然错误,模型正常情况下做出来的前端是这样的。
一个简单的编程任务,Muse Spark 虽生成了一大堆东西,但根本跑不通。
在一个 Python 文件里实现自动微分(autograd)和神经网络。
网友甚至调侃,模型根本没在学,训练了 1800 个 epoch,损失函数却一直卡在同一个值上没动过。
白白浪费算力了……
(正常情况下,随着训练进行损失应该逐步下降,表明模型在 “学习”)
所以问题来了,有试过的朋友觉得亚历山大王的首个模型如何?
参考链接:
[1]x.com/_jasonwei/s…
[2]x.com/jhyuxm/stat…
[3]x.com/DrYangSong/…
欢迎在评论区留下你的想法!
— 完 —