全网开测GPT-oss！技术架构也扒明白了全网开扒 GPT-oss，惊喜发现…… 奥特曼还是谦虚了，这性能岂止是 o4-

全网开扒 GPT-oss，惊喜发现……

奥特曼还是谦虚了，这性能岂止是 o4-mini 的水平，直接 SOTA 击穿一众开源模型。

不仅轻松通过多项性能测试，网友也整起了各种花活：

论文解读、整理数据，甚至造出类似于 Grok 4 Heavy 的 GPT-oss Pro 版。

背后架构也是被大佬们挖掘得明明白白，只能说开源真妙哇！

终于理解奥特曼提前预告的那句话是啥意思了：

即将进入 SaaS 的快时尚时代。

估计接下来 OpenAI 还有不少好东西要陆续发布……

全网开测 GPT-oss

首先，全网最关注的基准测试新鲜出炉，GPT-oss 直接登顶开源模型王座。

横扫 GPQA Diamond、AIME 2024、AIME 2025 和 Codeforces 榜单，超越 DeepSeek R1、Qwen3、Llama 4、Kimi K2 等一众开源模型。

不过在 MMLU 上确实还是 Qwen3-235B 更胜一筹，Kimi-K2 也在 SWE-Bench 上得分更高。

在核心推理基准测试中，GPT-oss 实现了与 o4-mini 等同的效果，可以在单个 80GB 的 GPU 上高效运行。

另外在一些常见基准测试中，性能也比肩 o3-mini，且只需要一个 16GB 内存的边缘设备，预计 GPT-oss 将会成为本地推理或快速迭代的理想选择，而无需昂贵的基础设施。

最小的 20B 模型可以轻松通过以下三项编码测试，比一些规模远超过它 2-3 倍的模型效果要好得多：