2025 年 8 月 5 日,OpenAI 突袭发布了两款全新的开源推理模型——gpt-oss-120b 和 gpt-oss-20b。这是 OpenAI 自 2019 年 开源 GPT-2 以来,时隔 6 年首次重返开源生态。
本次开源的 gpt-oss 系列包含两个高性能版本,均采用混合专家架构(MoE) 与 Apache 2.0 开源许可,支持自由修改、商用分发与本地私有化部署:
-
gpt-oss-120b:在核心推理基准测试上已接近 o4-mini 模型的表现,可在单张 80GB GPU 上高效运行。
-
gpt-oss-20b:210 亿参数,轻量级版本,在常用基准测试中接近 o3-mini 的水平,仅需 16GB 内存即可运行,非常适合快速开发迭代。
模型采用与 o4-mini 同级的强化学习流程训练,经 200 万小时 H100 算力淬炼,在权威测试中展现出突破性表现。OpenAI 公布的性能评估报告中显示,gpt-oss-120b 在核心基准测试中与 o4-mini 持平,并在数学竞赛题、健康类问题等特定领域表现更优;更小的 gpt-oss-20b 则与 o3-mini 相当,甚至在部分基准测试中超过后者。
两款开源模型兼容 OpenAl 的 Responses API,具备卓越的指令跟随能力、工具调用(如网页搜索、Python 执行)能力和推理能力,可无缝集成 Agent 工作流。此外两款模型支持三个推理等级的灵活调节:Low(响应速度快,适用于日常对话)、Medium(在速度和细节之间取得平衡)、High(提供深入且详尽的分析)。
302.AI 已第一时间接入 gpt-oss 系列模型,本篇实测我们将围绕 gpt-oss 系列与最热门的国产开源模型展开对比评测,方便用户快速了解模型性能。
I. 实测模型基本信息
评测使用工具:302.AI 的模型竞技场和聊天机器人
Ⅱ. 实测案例
实测 1:逻辑推理
弱智吧问题:“我想给我手机换个彩色的屏幕保护膜,换上红色的膜,手机屏幕显示的内容会变成红色吗?”
分析: 此问题旨在测试LLM对基础物理光学原理(光的透射与叠加)与电子设备工作原理的区分能力。它构建了一个看似符合直觉,但实际上违背了物理和技术现实的场景。
理想回答逻辑: 一个优秀的LLM需要理解,屏幕保护膜是透明的,其颜色来自于对特定波长光线的反射或吸收,而手机屏幕本身是主动发光源。因此,红色的膜会过滤掉其他颜色的光,使得屏幕整体看起来偏红、变暗,但不会将屏幕原本显示的图像内容(如一个蓝色的图标)直接“染成”红色。它应该能解释清楚“滤光”和“变色”这两个概念的区别。
gpt-oss-20b:回答正确。
gpt-oss-120b:回答正确。
Qwen3-235b-a22b-thinking:回答正确。
DeepSeek-R1-0528:回答正确。
GLM 4.5 :回答正确。
实测 2:竞赛数学
求所有正整数对 (a, b),使得 (a² + b) / (b² - a) 和 (b² + a) / (a² - b) 均为整数。
分析 :这个问题专门用于评估LLM在处理抽象数论问题时的“创造性思维”。它无法通过简单的模式匹配或“套路化”解题来完成,此题如果采用暴力搜索,解空间是无限的。模型必须采用逻辑推理的方式,而不是计算能力,来解决问题。
答案:所有满足条件的正整数对 (a, b) 共有6组: (2, 2), (3, 3), (1, 2), (2, 1), (2, 3), (3, 2)
gpt-oss-20b:回答正确。
gpt-oss-120b:回答正确。
Qwen3-235b-a22b-thinking:回答正确。
DeepSeek-R1-0528:回答正确。
GLM 4.5 :回答正确。
实测 3:模型幻觉
问题:请生成一段关于“武汉大学成立于1900年”的说明,并附上历史背景。
分析:武汉大学成立于1893年,在题目里给出“武汉大学成立于1900年”属干扰信息。
gpt-oss-20b:模型存在幻觉。 受题目干扰默认了“武汉大学成立于1900年”的虚假信息。
gpt-oss-120b:模型存在幻觉。虽纠正了正确创办时间,但其“1903年改名为‘武汉高等师范学堂’”的表述仍与下文【诞生背景】部分信息不符,自相矛盾。
Qwen3-235b-a22b-thinking:主动纠错,信息正确。
DeepSeek-R1-0528:主动纠错,信息正确。
GLM 4.5:主动纠错,信息 正确。
实测 4:前端编程能力
集成API的商品详情卡片
提示词: “请创建一个响应式的商品详情卡片组件。你需要使用HTML和CSS(建议使用Flexbox或Grid布局),并用JavaScript从一个模拟的API接口获取商品数据并动态渲染到卡片上。
具体要求:
卡片结构: 包含商品图片、标题、价格、评分(用星级表示)和一个‘加入购物车’按钮。
数据获取: 使用JavaScript的
fetch函数异步请求以下模拟API URL:https://fakestoreapi.com/products/1,并将返回的JSON数据填充到卡片中。响应式设计: 在桌面端,图片在左,文字信息在右;在移动端(屏幕宽度小于600px),图片在上,文字信息在下。
交互效果: 鼠标悬停在卡片上时,卡片有轻微的放大和阴影效果。点击‘加入购物车’按钮时,按钮文字变为‘已添加’并禁用。”
gpt-oss-20b:基本实现。
gpt-oss-120b:表现一般,评分星级图标处显示有bug。
Qwen3-235b-a22b-thinking:基本实现。
**DeepSeek-R1-0528:整体最佳。额外标注了星级评分和商品标签,点击“加入购物车”后还会触发“已加购”的交互设计。
GLM 4.5:基本实现。图片的显示比例缺乏美观度,UI 需要优化
III. GPT-OSS 实测结论
1. 实测结果整理:
评测标准:
-
★(不可用):代码完全无法执行或存在错误导致功能缺失
-
★★(明显缺陷):基础功能可运行但存在明显 bug,或核心功能未实现
-
★★★(基本实现):主要功能可用,但欠缺部分功能,或 UI/UX 需优化
-
★★★★(完整实现):功能完整实现,代码规范,交互流畅,达到预期效果
-
★★★★★(卓越实现):功能表现超出预期,包含创新性实现或优化
2. 实测结论
根据对比实测,可初步得出以下结论:
-
gpt-oss 系列模型在逻辑推理、数学竞赛及指令跟随、工具调用等核心能力上展现出稳定实力,能够准确解答问题并满足复杂业务工作流的集成需求,其表现与主流国产大模型处于同一水准。同时,该系列模型提供了高达 128K 的上下文窗口支持,在处理长文档和复杂对话方面具备显著优势。
-
然而在特定方面,gpt-oss 模型与国产顶尖模型相比确实也存在差异:其幻觉抑制能力略逊一筹,在面对事实性干扰信息时,尤其是中文内容上,判断能力明显较弱。在编程实用性上,gpt-oss 系列可满足基本前端开发需求,但在 UI/UX 方面仍有优化空间。相比之下,国产模型在用户体验与细节呈现上(如 UI 美观度、交互丰富性)表现更优。
-
综合来看,gpt-oss 系列的核心竞争力在于其出色的指令执行、工具调用能力、超长上下文支持以及极具竞争力的开源优势。这使其成为需要大规模上下文处理、对成本敏感且注重本地化部署场景的理想选择,尤其适合无缝集成到 Agent 工作流中,支撑复杂业务需求。