Meta 重磅反击!扎克伯格不玩开源了?首款闭源模型 Muse Spark 正式官宣

5 阅读9分钟

昨天,Meta 突然放大招:Meta Superintelligence Labs(超级智能实验室) 推出了首款前沿模型 —— Muse Spark

这不是Llama系列的常规迭代,而是Meta用全新AI栈从零重构后,交出的第一份正式答卷。仅用9个月,就拿出了“个人超智能(Personal Superintelligence) ”时代的第一个重要里程碑。

Muse Spark 现已在meta.ai和 Meta AI 应用上线,同时面向部分用户开放私有 API 预览。

下面,我按照官方逻辑,给你一次完整、干货满满的拆解,并加入一些值得关注的细节和我的观察。

一、Muse Spark 是什么?Meta 为何要从头重构AI栈?

Muse Spark 是 Muse 模型家族的第一个成员。它是一款原生多模态推理模型,从底层就支持工具调用、视觉思维链(Visual Chain-of-Thought),以及多代理编排。

Meta 明确表示,这不是单纯追求参数规模的模型,而是一个小而快、足够强的设计,目标是先进入真实产品、服务真实用户,再为后续更大模型验证路径。

它被定位为通往“个人超智能”的第一步——一个真正理解你的世界、能帮你分析环境、支持日常决策的助手。

Muse Spark 的诞生,来自Meta Superintelligence Labs(MSL)的全力推动。这个实验室由Zuckerberg亲自布局,目标直指个人超智能。Muse Spark 正是他们“从底层重建整个AI技术栈”(包括研究、训练、基础设施如Hyperion数据中心等)的第一个成果。

二、Meta AI 的真实升级:不止更快,而是更聪明

Muse Spark 上线后,Meta AI 的体验发生了明显变化。

它现在能同时应对“快问快答”和“复杂推理”两类任务。简单问题快速响应,复杂问题则可以进入更强的思考模式(官方正在逐步推出类似Instant和Thinking的体验)。

最有意思的是Contemplating模式(多代理并行思考模式):模型会同时启动多个子代理并行推理,最后汇总出更完整、更有深度的答案。

举个官方例子:规划家庭旅行时,一个代理负责行程草案,另一个对比不同目的地,第三个查找适合孩子的活动,最终合成一份更周全的方案。

这个模式让Muse Spark在保持相似延迟的情况下,显著提升复杂任务表现,能直接对标Gemini Deep Think和GPT Pro等前沿模型的极端推理能力。

目前Muse Spark已上线 meta.ai 和 Meta AI App,未来几周将逐步扩展到WhatsApp、Instagram、Facebook、Messenger,以及Meta的Ray-Ban AI眼镜。同时,还会向少量合作伙伴开放私有API预览。

三、Muse Spark 最值得关注的能力:看得懂现实世界

Muse Spark 的核心优势之一是多模态感知。它从底层架构就开始整合视觉信息,在视觉STEM问题、实体识别和定位上表现出色。

这些能力结合在一起,可以实现各种交互式体验:

  • 你可以提示它“把它转换成一个我可以在网上玩的数独游戏”,它就能生成可玩的网页版数独小游戏。
  • 或者让它为咖啡机创建交互式教程:识别组件、动态标注,鼠标悬停时高亮对应部件,教你一步步做拿铁。
  • 分析瑜伽姿势照片:显示拉伸的肌肉群、难度评分,悬停给出纠正建议,还能并排给出1-10分的姿势打分。

这些例子说明,Muse Spark 不再只是“聊天工具”,而是能理解你周围环境、提供动态交互的助手。未来接入Ray-Ban AI眼镜后,这种“实时看世界”的体验会更加自然丝滑。

四、为什么Meta特别强调健康场景?

个人超智能的一项重要应用,就是帮助人们了解并改善自身健康状况。Meta 为此与超过 1000 多位医生 合作,收集训练数据,让Muse Spark 在健康推理上提供更客观、更全面的反馈。

实际应用中,它可以生成交互式显示界面,详细解读各种健康信息。例如:

  • 对于一位高胆固醇的鱼素者,你上传食物照片,它会在推荐食物上标出绿色圆点,不推荐食物上标出红色圆点(位置准确、不重复)。
  • 鼠标悬停在圆点上时,显示个性化的推荐理由、10分制的健康评分(评分数字直接显示在圆点上方),以及卡路里、碳水化合物、蛋白质和脂肪含量。描述会位于所有其他圆点之上。
  • 分析健身照片,显示运动过程中激活的肌肉群,并给出针对性建议。

在HealthBench Hard基准上,Muse Spark得分42.8% ,领先于GPT-5.4(40.1%)和Gemini 3.1 Pro(20.6%)。这不是巧合,而是Meta有意把高频生活场景作为突破口。

健康、饮食这些高频生活场景,正是Meta希望AI真正走进用户日常的关键切入点。

五、性能上它到底处在什么位置?

Meta的表述相对克制,但数据值得关注。

在Contemplating模式下,Muse Spark在Humanity’s Last Exam达到58% (带工具),FrontierScience Research达到38% ,在复杂科学和多学科推理上展现竞争力。

此外,在CharXiv Reasoning(图表理解)上得分86.4% ,表现出色。

整体来看,Artificial Analysis的Intelligence Index给出了52分,位居当前顶级模型前五。

与Llama 4 Maverick相比,Muse Spark在达到相似能力时,计算量减少超过一个数量级(10倍以上) ,效率显著提升。Meta强调,他们通过重建预训练栈(架构、优化、数据 curation)和强化学习,实现了更平滑、可预测的性能增长。

当然,Meta也诚实地提到,在长时程代理系统和编码工作流上仍有差距,后续会持续投入。更大版本的Muse模型已经在开发中。

六、这次发布背后的真正重点:Meta换打法了

Muse Spark 的核心意义,不只是模型本身,而是Meta用9个月时间,把AI技术栈从头重建了一遍。

官方重点介绍了Muse Spark的三大扩展维度:预训练、强化学习(RL)和测试时推理。

Meta重构了预训练堆栈,改进了模型架构、优化和数据管理。这些改进共同提升了Meta利用每一单位计算资源所能达到的性能。为了严格评估新方案,Meta对一系列小型模型拟合了一个扩展定律,并比较了达到特定性能水平所需的训练浮点运算次数(FLOPs)

结果显而易见:与之前的模型 Llama 4 Maverick 相比,用少一个数量级以上的计算资源就能达到相同的性能。这一改进也使得 Muse Spark 比目前可供比较的领先基础模型效率更高。

强化学习(RL)阶段则负责可扩展地放大能力。尽管大规模RL通常容易不稳定,但Meta的新栈带来了平稳、可预测的性能提升。在训练数据上,随着RL计算步数的增加,pass@1(一次尝试成功率)和pass@16(16次尝试中至少成功一次)呈现对数线性增长

这意味着模型可靠性显著提高,同时没有牺牲推理多样性。在未见过的评估集上,准确率也平稳增长,显示出良好的泛化能力,能很好地应对新任务。

测试时推理阶段是让AI“思考”后再回答的关键。Meta 通过思考时间惩罚来优化令牌使用,同时引入多智能体编排(即Contemplating模式),在不显著增加延迟的情况下提升性能。训练过程中会出现有趣的“相变”现象:一开始延长思考时间能提升正确率,随后模型学会Thought Compression(思维压缩) ——用显著更少的词元解决问题,之后再扩展解决方案以获得更强表现。

相比传统单智能体长时间思考,多代理并行方式能在相似延迟下实现更高性能。这让Muse Spark 既聪明又高效,真正适合服务数亿用户。

这标志着Meta不再满足于之前的路径,而是把研究、产品和基础设施更紧密地绑定在一起。Muse Spark直接服务于Meta自有生态,能增强Instagram、Facebook、Threads等产品的推荐和内容体验,还能利用社区内容提供更接地气的上下文。

七、闭源,也许才是这次最值得玩味的信号

Muse Spark 目前采用闭源策略,先服务Meta自家生态和少量合作伙伴。这与Llama系列不同,显示Meta在涉及用户入口和多模态整合时,更注重平台整体优势。

在安全方面,Meta 按照更新后的 Advanced AI Scaling Framework 进行了全面评估。Muse Spark 在生物和化学武器等高风险领域表现出强烈拒绝行为,在网络安全和失控场景中也不具备自主威胁能力,整体处于安全范围内。

第三方机构 Apollo Research 的评估还发现,Muse Spark 展现出极高的“评估意识”——它能识别“对齐陷阱”,并倾向于诚实行为。这虽然需要进一步研究,但并未构成发布障碍。完整安全报告即将公布。

八、Muse Spark 真正想回答的问题

不是“能不能更强”,而是“能不能真正走进生活”。

Meta 把重点放在多模态与现实世界的理解、健康等高频场景、多代理协同,以及与Instagram、WhatsApp、AI眼镜等产品的深度整合上。目标是让AI从工具变成始终在线、懂你生活的个人超智能助手。

这套打法,充分利用了Meta在产品分发、社交关系和硬件终端上的优势,试图把AI从“工具”变成“生活伙伴”。

九、我的看法

Muse Spark未必已经是当下绝对最强的模型,但在Meta近年来的AI产品发布中,它可能是最重要的一次。

过去Meta在AI上虽然有研究、有开源声量,但产品感有时不够强。这一次,Muse Spark明显是为真实用户和真实场景而生。它证明Meta有能力快速重建栈、推出可立即落地的产品,并开始重新争夺下一代个人智能入口。

未来关键在于两点:Muse系列能否快速补齐编码和长链任务短板;Meta能否把“个人超智能”的愿景,真正转化为用户每天都愿意使用的丝滑体验。

至少现在看,Meta已经不再只是追赶者,它开始认真下场了。

感兴趣的朋友,点个在看 + 转发支持一下!