Meta 重磅反击！扎克伯格不玩开源了？首款闭源模型 Muse Spark 正式官宣昨天，Meta 突然放大招：Meta

昨天，Meta 突然放大招：Meta Superintelligence Labs（超级智能实验室） 推出了首款前沿模型 —— Muse Spark。

这不是Llama系列的常规迭代，而是Meta用全新AI栈从零重构后，交出的第一份正式答卷。仅用9个月，就拿出了“个人超智能（Personal Superintelligence） ”时代的第一个重要里程碑。

Muse Spark 现已在meta.ai和 Meta AI 应用上线，同时面向部分用户开放私有 API 预览。

下面，我按照官方逻辑，给你一次完整、干货满满的拆解，并加入一些值得关注的细节和我的观察。

一、Muse Spark 是什么？Meta 为何要从头重构AI栈？

Muse Spark 是 Muse 模型家族的第一个成员。它是一款原生多模态推理模型，从底层就支持工具调用、视觉思维链（Visual Chain-of-Thought），以及多代理编排。

Meta 明确表示，这不是单纯追求参数规模的模型，而是一个小而快、足够强的设计，目标是先进入真实产品、服务真实用户，再为后续更大模型验证路径。

它被定位为通往“个人超智能”的第一步——一个真正理解你的世界、能帮你分析环境、支持日常决策的助手。

Muse Spark 的诞生，来自Meta Superintelligence Labs（MSL）的全力推动。这个实验室由Zuckerberg亲自布局，目标直指个人超智能。Muse Spark 正是他们“从底层重建整个AI技术栈”（包括研究、训练、基础设施如Hyperion数据中心等）的第一个成果。

二、Meta AI 的真实升级：不止更快，而是更聪明

Muse Spark 上线后，Meta AI 的体验发生了明显变化。

它现在能同时应对“快问快答”和“复杂推理”两类任务。简单问题快速响应，复杂问题则可以进入更强的思考模式（官方正在逐步推出类似Instant和Thinking的体验）。

最有意思的是Contemplating模式（多代理并行思考模式）：模型会同时启动多个子代理并行推理，最后汇总出更完整、更有深度的答案。

举个官方例子：规划家庭旅行时，一个代理负责行程草案，另一个对比不同目的地，第三个查找适合孩子的活动，最终合成一份更周全的方案。

这个模式让Muse Spark在保持相似延迟的情况下，显著提升复杂任务表现，能直接对标Gemini Deep Think和GPT Pro等前沿模型的极端推理能力。

目前Muse Spark已上线 meta.ai 和 Meta AI App，未来几周将逐步扩展到WhatsApp、Instagram、Facebook、Messenger，以及Meta的Ray-Ban AI眼镜。同时，还会向少量合作伙伴开放私有API预览。

三、Muse Spark 最值得关注的能力：看得懂现实世界

Muse Spark 的核心优势之一是多模态感知。它从底层架构就开始整合视觉信息，在视觉STEM问题、实体识别和定位上表现出色。

这些能力结合在一起，可以实现各种交互式体验：

你可以提示它“把它转换成一个我可以在网上玩的数独游戏”，它就能生成可玩的网页版数独小游戏。
或者让它为咖啡机创建交互式教程：识别组件、动态标注，鼠标悬停时高亮对应部件，教你一步步做拿铁。
分析瑜伽姿势照片：显示拉伸的肌肉群、难度评分，悬停给出纠正建议，还能并排给出1-10分的姿势打分。

这些例子说明，Muse Spark 不再只是“聊天工具”，而是能理解你周围环境、提供动态交互的助手。未来接入Ray-Ban AI眼镜后，这种“实时看世界”的体验会更加自然丝滑。

四、为什么Meta特别强调健康场景？

个人超智能的一项重要应用，就是帮助人们了解并改善自身健康状况。Meta 为此与超过 1000 多位医生 合作，收集训练数据，让Muse Spark 在健康推理上提供更客观、更全面的反馈。

实际应用中，它可以生成交互式显示界面，详细解读各种健康信息。例如：

对于一位高胆固醇的鱼素者，你上传食物照片，它会在推荐食物上标出绿色圆点，不推荐食物上标出红色圆点（位置准确、不重复）。
鼠标悬停在圆点上时，显示个性化的推荐理由、10分制的健康评分（评分数字直接显示在圆点上方），以及卡路里、碳水化合物、蛋白质和脂肪含量。描述会位于所有其他圆点之上。
分析健身照片，显示运动过程中激活的肌肉群，并给出针对性建议。

在HealthBench Hard基准上，Muse Spark得分42.8% ，领先于GPT-5.4（40.1%）和Gemini 3.1 Pro（20.6%）。这不是巧合，而是Meta有意把高频生活场景作为突破口。

健康、饮食这些高频生活场景，正是Meta希望AI真正走进用户日常的关键切入点。

五、性能上它到底处在什么位置？

Meta的表述相对克制，但数据值得关注。

在Contemplating模式下，Muse Spark在Humanity’s Last Exam达到58% （带工具），FrontierScience Research达到38% ，在复杂科学和多学科推理上展现竞争力。

此外，在CharXiv Reasoning（图表理解）上得分86.4% ，表现出色。

整体来看，Artificial Analysis的Intelligence Index给出了52分，位居当前顶级模型前五。

与Llama 4 Maverick相比，Muse Spark在达到相似能力时，计算量减少超过一个数量级（10倍以上） ，效率显著提升。Meta强调，他们通过重建预训练栈（架构、优化、数据 curation）和强化学习，实现了更平滑、可预测的性能增长。

当然，Meta也诚实地提到，在长时程代理系统和编码工作流上仍有差距，后续会持续投入。更大版本的Muse模型已经在开发中。

六、这次发布背后的真正重点：Meta换打法了

Muse Spark 的核心意义，不只是模型本身，而是Meta用9个月时间，把AI技术栈从头重建了一遍。

官方重点介绍了Muse Spark的三大扩展维度：预训练、强化学习（RL）和测试时推理。

Meta重构了预训练堆栈，改进了模型架构、优化和数据管理。这些改进共同提升了Meta利用每一单位计算资源所能达到的性能。为了严格评估新方案，Meta对一系列小型模型拟合了一个扩展定律，并比较了达到特定性能水平所需的训练浮点运算次数（FLOPs）

结果显而易见：与之前的模型 Llama 4 Maverick 相比，用少一个数量级以上的计算资源就能达到相同的性能。这一改进也使得 Muse Spark 比目前可供比较的领先基础模型效率更高。

强化学习（RL）阶段则负责可扩展地放大能力。尽管大规模RL通常容易不稳定，但Meta的新栈带来了平稳、可预测的性能提升。在训练数据上，随着RL计算步数的增加，pass@1（一次尝试成功率）和pass@16（16次尝试中至少成功一次）呈现对数线性增长。

这意味着模型可靠性显著提高，同时没有牺牲推理多样性。在未见过的评估集上，准确率也平稳增长，显示出良好的泛化能力，能很好地应对新任务。

测试时推理阶段是让AI“思考”后再回答的关键。Meta 通过思考时间惩罚来优化令牌使用，同时引入多智能体编排（即Contemplating模式），在不显著增加延迟的情况下提升性能。训练过程中会出现有趣的“相变”现象：一开始延长思考时间能提升正确率，随后模型学会Thought Compression（思维压缩） ——用显著更少的词元解决问题，之后再扩展解决方案以获得更强表现。

相比传统单智能体长时间思考，多代理并行方式能在相似延迟下实现更高性能。这让Muse Spark 既聪明又高效，真正适合服务数亿用户。

这标志着Meta不再满足于之前的路径，而是把研究、产品和基础设施更紧密地绑定在一起。Muse Spark直接服务于Meta自有生态，能增强Instagram、Facebook、Threads等产品的推荐和内容体验，还能利用社区内容提供更接地气的上下文。

七、闭源，也许才是这次最值得玩味的信号

Muse Spark 目前采用闭源策略，先服务Meta自家生态和少量合作伙伴。这与Llama系列不同，显示Meta在涉及用户入口和多模态整合时，更注重平台整体优势。

在安全方面，Meta 按照更新后的 Advanced AI Scaling Framework 进行了全面评估。Muse Spark 在生物和化学武器等高风险领域表现出强烈拒绝行为，在网络安全和失控场景中也不具备自主威胁能力，整体处于安全范围内。

第三方机构 Apollo Research 的评估还发现，Muse Spark 展现出极高的“评估意识”——它能识别“对齐陷阱”，并倾向于诚实行为。这虽然需要进一步研究，但并未构成发布障碍。完整安全报告即将公布。

八、Muse Spark 真正想回答的问题

不是“能不能更强”，而是“能不能真正走进生活”。

Meta 把重点放在多模态与现实世界的理解、健康等高频场景、多代理协同，以及与Instagram、WhatsApp、AI眼镜等产品的深度整合上。目标是让AI从工具变成始终在线、懂你生活的个人超智能助手。

这套打法，充分利用了Meta在产品分发、社交关系和硬件终端上的优势，试图把AI从“工具”变成“生活伙伴”。

九、我的看法

Muse Spark未必已经是当下绝对最强的模型，但在Meta近年来的AI产品发布中，它可能是最重要的一次。

过去Meta在AI上虽然有研究、有开源声量，但产品感有时不够强。这一次，Muse Spark明显是为真实用户和真实场景而生。它证明Meta有能力快速重建栈、推出可立即落地的产品，并开始重新争夺下一代个人智能入口。

未来关键在于两点：Muse系列能否快速补齐编码和长链任务短板；Meta能否把“个人超智能”的愿景，真正转化为用户每天都愿意使用的丝滑体验。

至少现在看，Meta已经不再只是追赶者，它开始认真下场了。

感兴趣的朋友，点个在看 + 转发支持一下！