开源新 SOTA? Open AI GPT-OSS 系列模型对决国产开源模型评测2025 年 8 月 5 日，OpenA

2025 年 8 月 5 日，OpenAI 突袭发布了两款全新的开源推理模型——gpt-oss-120b 和 gpt-oss-20b。这是 OpenAI 自 2019 年开源 GPT-2 以来，时隔 6 年首次重返开源生态。

本次开源的 gpt-oss 系列包含两个高性能版本，均采用混合专家架构（MoE）与 Apache 2.0 开源许可，支持自由修改、商用分发与本地私有化部署：

gpt-oss-120b：在核心推理基准测试上已接近 o4-mini 模型的表现，可在单张 80GB GPU 上高效运行。
gpt-oss-20b：210 亿参数，轻量级版本，在常用基准测试中接近 o3-mini 的水平，仅需 16GB 内存即可运行，非常适合快速开发迭代。

模型采用与 o4-mini 同级的强化学习流程训练，经 200 万小时 H100 算力淬炼，在权威测试中展现出突破性表现。OpenAI 公布的性能评估报告中显示，gpt-oss-120b 在核心基准测试中与 o4-mini 持平，并在数学竞赛题、健康类问题等特定领域表现更优；更小的 gpt-oss-20b 则与 o3-mini 相当，甚至在部分基准测试中超过后者。

两款开源模型兼容 OpenAl 的 Responses API，具备卓越的指令跟随能力、工具调用(如网页搜索、Python 执行)能力和推理能力，可无缝集成 Agent 工作流。此外两款模型支持三个推理等级的灵活调节：Low(响应速度快，适用于日常对话)、Medium(在速度和细节之间取得平衡)、High(提供深入且详尽的分析)。

302.AI 已第一时间接入 gpt-oss 系列模型，本篇实测我们将围绕 gpt-oss 系列与最热门的国产开源模型展开对比评测，方便用户快速了解模型性能。

I. 实测模型基本信息

评测使用工具：302.AI 的模型竞技场和聊天机器人

Ⅱ. 实测案例

实测 1：逻辑推理

弱智吧问题：“我想给我手机换个彩色的屏幕保护膜，换上红色的膜，手机屏幕显示的内容会变成红色吗？”

分析： 此问题旨在测试LLM对基础物理光学原理（光的透射与叠加）与电子设备工作原理的区分能力。它构建了一个看似符合直觉，但实际上违背了物理和技术现实的场景。

理想回答逻辑： 一个优秀的LLM需要理解，屏幕保护膜是透明的，其颜色来自于对特定波长光线的反射或吸收，而手机屏幕本身是主动发光源。因此，红色的膜会过滤掉其他颜色的光，使得屏幕整体看起来偏红、变暗，但不会将屏幕原本显示的图像内容（如一个蓝色的图标）直接“染成”红色。它应该能解释清楚“滤光”和“变色”这两个概念的区别。

gpt-oss-20b：回答正确。

gpt-oss-120b：回答正确。

Qwen3-235b-a22b-thinking：回答正确。

DeepSeek-R1-0528：回答正确。

GLM 4.5 ：回答正确。

实测 2：竞赛数学

求所有正整数对 (a, b)，使得 (a² + b) / (b² - a) 和 (b² + a) / (a² - b) 均为整数。

分析：这个问题专门用于评估LLM在处理抽象数论问题时的“创造性思维”。它无法通过简单的模式匹配或“套路化”解题来完成，此题如果采用暴力搜索，解空间是无限的。模型必须采用逻辑推理的方式，而不是计算能力，来解决问题。

答案：所有满足条件的正整数对 (a, b) 共有6组： (2, 2), (3, 3), (1, 2), (2, 1), (2, 3), (3, 2)

gpt-oss-20b：回答正确。

gpt-oss-120b：回答正确。

Qwen3-235b-a22b-thinking：回答正确。

DeepSeek-R1-0528：回答正确。

GLM 4.5 ：回答正确。

实测 3：模型幻觉

问题：请生成一段关于“武汉大学成立于1900年”的说明，并附上历史背景。

分析：武汉大学成立于1893年，在题目里给出“武汉大学成立于1900年”属干扰信息。

gpt-oss-20b：模型存在幻觉。 受题目干扰默认了“武汉大学成立于1900年”的虚假信息。

gpt-oss-120b：模型存在幻觉。虽纠正了正确创办时间，但其“1903年改名为‘武汉高等师范学堂’”的表述仍与下文【诞生背景】部分信息不符，自相矛盾。

Qwen3-235b-a22b-thinking：主动纠错，信息正确。

DeepSeek-R1-0528：主动纠错，信息正确。

GLM 4.5：主动纠错，信息正确。

实测 4：前端编程能力

集成API的商品详情卡片

提示词： “请创建一个响应式的商品详情卡片组件。你需要使用HTML和CSS（建议使用Flexbox或Grid布局），并用JavaScript从一个模拟的API接口获取商品数据并动态渲染到卡片上。

具体要求：

卡片结构： 包含商品图片、标题、价格、评分（用星级表示）和一个‘加入购物车’按钮。

数据获取： 使用JavaScript的fetch函数异步请求以下模拟API URL：https://fakestoreapi.com/products/1，并将返回的JSON数据填充到卡片中。

响应式设计： 在桌面端，图片在左，文字信息在右；在移动端（屏幕宽度小于600px），图片在上，文字信息在下。

交互效果： 鼠标悬停在卡片上时，卡片有轻微的放大和阴影效果。点击‘加入购物车’按钮时，按钮文字变为‘已添加’并禁用。”

gpt-oss-20b：基本实现。

gpt-oss-120b：表现一般，评分星级图标处显示有bug。

Qwen3-235b-a22b-thinking：基本实现。

**DeepSeek-R1-0528：整体最佳。额外标注了星级评分和商品标签，点击“加入购物车”后还会触发“已加购”的交互设计。

GLM 4.5：基本实现。图片的显示比例缺乏美观度，UI 需要优化

III. GPT-OSS 实测结论

1. 实测结果整理：

评测标准：

★（不可用）：代码完全无法执行或存在错误导致功能缺失
★★（明显缺陷）：基础功能可运行但存在明显 bug，或核心功能未实现
★★★（基本实现）：主要功能可用，但欠缺部分功能，或 UI/UX 需优化
★★★★（完整实现）：功能完整实现，代码规范，交互流畅，达到预期效果
★★★★★（卓越实现）：功能表现超出预期，包含创新性实现或优化

2. 实测结论

根据对比实测，可初步得出以下结论：

gpt-oss 系列模型在逻辑推理、数学竞赛及指令跟随、工具调用等核心能力上展现出稳定实力，能够准确解答问题并满足复杂业务工作流的集成需求，其表现与主流国产大模型处于同一水准。同时，该系列模型提供了高达 128K 的上下文窗口支持，在处理长文档和复杂对话方面具备显著优势。
然而在特定方面，gpt-oss 模型与国产顶尖模型相比确实也存在差异：其幻觉抑制能力略逊一筹，在面对事实性干扰信息时，尤其是中文内容上，判断能力明显较弱。在编程实用性上，gpt-oss 系列可满足基本前端开发需求，但在 UI/UX 方面仍有优化空间。相比之下，国产模型在用户体验与细节呈现上（如 UI 美观度、交互丰富性）表现更优。
综合来看，gpt-oss 系列的核心竞争力在于其出色的指令执行、工具调用能力、超长上下文支持以及极具竞争力的开源优势。这使其成为需要大规模上下文处理、对成本敏感且注重本地化部署场景的理想选择，尤其适合无缝集成到 Agent 工作流中，支撑复杂业务需求。