就在一个小时前,埃隆·马斯克的AI公司xAI再次成为科技圈的焦点 正式发布了其最新一代大模型。Grok 4来了。下面是我基于xAI官方直播的内容所做的要点整理:
据悉, Grok 4的训练量是Grok 2的100倍。强化学习RL的计算资源投入是其他模型的10倍多。
Grok 4在一项名为“人类终极考试”HLE的综合评估中展示了极其惊人的实力。马斯克很自信。他说:“Grok 4在所有方面都达到了研究生水平! ”
从xAI公布的数据图表来看。模型的智能水平与投入的计算资源。呈现出明显的正相关关系。下图是没用工具的情况。
值得注意的是 当Grok 4被赋予原生工具调用能力后 它的性能直接实现了质的飞跃。这再次印证了为AI配备正确工具的重要性。
当然 团队也坦言。可靠的信号是强化学习成功的关键。数据依然是挑战, 马斯克一针见血的指出, “对推理能力的终极考验,是让AI在真实世界中运作。 ”
在扩展、测试时计算方面, Grok 4解决了超过50%的HLE纯文本问题。其性能曲线的增长斜率堪称“夸张”。
为了证明Grok 4的实用价值 xAI展示了几个相当有趣的应用案例, 比如利用Grok 4预测今年的世界棒球系列赛冠军。这种任务考验的是模型在真实复杂场景下的综合能力。
另一个案例更惊艳。模拟两个黑洞碰撞的可视化过程。Grok 4能自己查论文, 读PDF。然后基于这些信息去推理模拟的细节和需要的数据。
在推理基准测试上Grok 4的表现在AIME25取得了满分。
怎么体验Grok 4?
这次发布的Grok 4有两个版本。
- Grok 4:单智能体版本。
- Grok 4 Heavy:更强大的多智能体版本。
目前 用户可以通过 SuperGrok Heavy 等级订阅来体验新模型, 定价如下。
- SuperGrok: $30/月
- SuperGrok Heavy: $300/月
此外 开发者也可以通过 xAI API 接入Grok 4模型 该API支持高达 256K的上下文窗口 和 实时网络搜索 能力。
对于下一步的计划,xAI表示将聚焦于“智能”与“速度”的同步提升。性能更强的编码模型、功能更全面的多模态智能体、甚至视频生成模型。都已在xAI的研发蓝图之上。
image