各位开发者、AI爱好者们,凌晨好!
就在刚刚,OpenAI又双叒叕搞了个大新闻——正式推出全新一代GPT模型系列:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano!
划重点:这波不仅是简单升级,而是全方位的大·飞·跃!
- • 代码能力狂飙: SWE-bench 成绩碾压前代,码农狂喜!
- • 指令遵循更精准: 复杂指令也能拿捏,Agent应用更有谱!
- • 长文本处理逆天: 直接干到 100万 Token 上下文,还能吃透!
- • 还有「纳米级」新秀: GPT-4.1 nano,又快又便宜,性能还不赖!
- • 知识库更新: 截止到 2024 年 6 月,信息更新鲜。
更香的是,性能提升的同时,价格还更低了! 这不是等等党的胜利,这是所有开发者的福音啊!
OpenAI 表示,新模型家族在各项基准测试中全面超越 GPT-4o 和 GPT-4o mini,尤其在开发者最关心的编码和指令遵循方面,提升堪称“史诗级”。
![Image Placeholder: Conceptual graphic showing GPT-4.1 outperforming older models on key metrics like coding, instruction following, long context]
(图片示意:GPT-4.1 在关键指标上超越旧模型)
赶紧来看看这波王炸的具体威力!
1. 代码能力:飙升!直接登顶?
写代码、改 Bug,AI 工程师的核心技能。这次 GPT-4.1 交出的答卷,有点惊人。
- • SWE-bench Verified: 在这个衡量真实世界软件工程能力的硬核测试上,GPT-4.1 拿下了 54.6% 的高分!
-
- • 对比 GPT-4o (33.2%),绝对提升 21.4% !
- • 对比 GPT-4.5 (38.0%),绝对提升 26.6% !
- • 这成绩,妥妥的顶级编码模型水准。这意味着它能更好地理解代码库、完成任务、生成能跑通还能过测试的代码。
![Image Placeholder: Bar chart comparing SWE-bench Verified scores of different models, highlighting GPT-4.1's lead]
(图表:SWE-bench Verified 分数对比,GPT-4.1 遥遥领先)
- • 代码修改 (Diffs): 在 Aider 的多语言 diff 基准测试中,GPT-4.1 的分数是 GPT-4o 的两倍多,甚至比 GPT-4.5 还高 8%。它能更可靠地遵循 diff 格式,开发者只需输出更改行,节省成本和延迟。当然,如果你喜欢重写整个文件,输出 Token 上限也提高到了 32,768 (之前是 16,384)。
![Image Placeholder: Bar chart comparing Aider's polyglot diff benchmark scores]
(图表:Aider 多语言 diff 基准测试分数对比)
- • 前端编码: 不仅能写,还能写得好看好用!OpenAI 内部盲测,人类评分员 80% 的时间更喜欢 GPT-4.1 生成的网站。下面这个 Flashcard 应用对比,高下立判:
![Image Placeholder: Side-by-side comparison of the Flashcard web app generated by GPT-4o vs GPT-4.1, showing GPT-4.1's superior functionality and aesthetics]
(图示:GPT-4o vs GPT-4.1 生成的 Flashcard 应用对比)
- • 更少犯错: 内部评估显示,代码中无关的编辑错误率从 GPT-4o 的 9% 降至 GPT-4.1 的 2% 。
开发者实测反馈:
- • Windsurf: 内部编码基准测试得分比 GPT-4o 高 60% ,工具调用效率提升 30%,重复编辑减少 50%。
- • Qodo: 在生成 GitHub PR 代码审查方面,对 200 个真实 PR 进行测试,55% 的情况下 GPT-4.1 的建议更好,兼具精确性和全面性。
2. 指令遵循:更听话,更可靠!
让 AI 精确理解并执行指令,是通往强大 Agent 的关键一步。GPT-4.1 在这方面也下了苦功。
- • 内部测试 (Hard Subset): 针对格式遵循、否定指令、有序指令、内容要求、排序、避免过度自信等复杂指令场景,GPT-4.1 得分 49.1% ,远超 GPT-4o 的 29.2%。
![Image Placeholder: Bar chart comparing Internal OpenAI Instructions following eval accuracy (hard subset)]
(图表:OpenAI 内部指令遵循评估 (困难子集) 分数对比)
- • 多轮对话指令 (MultiChallenge): GPT-4.1 得分 38.3% ,比 GPT-4o 提升 10.5% ,能更好地记住和利用对话历史信息。
- • IFEval (可验证指令): GPT-4.1 得分 87.4% ,高于 GPT-4o 的 81.0%。
开发者实测反馈:
- • Blue J (税务): 在最难的真实税务场景基准上,GPT-4.1 准确率比 GPT-4o 高 53% ,对复杂法规理解和长文本指令遵循能力显著提升。
- • Hex (SQL): 在最具挑战性的 SQL 评估集上,性能提升近 2 倍,在大型模糊 Schema 中选择正确表格的能力更可靠。
3. 长文本:100万 Token!还能 hold 住!
上下文窗口的大小,直接决定了 AI 能处理的信息量。这次,OpenAI 直接把 GPT-4.1 全家桶的上下文窗口干到了 100 万 Token!什么概念?超过 8 个 React 完整代码库的大小!
处理大型代码库、海量文档,从此不再是难题。
关键是,不光窗口大,理解能力也得跟上。
- • 大海捞针 (Needle in a Haystack): GPT-4.1 能在 100 万 Token 的任意位置,精准找到隐藏信息,稳得一批!
![Image Placeholder: Graph showing GPT-4.1's near-perfect accuracy on the Needle in a Haystack test across different context lengths up to 1M tokens]
(图示:GPT-4.1 在不同长度上下文(最高1M)的大海捞针测试中准确率近乎完美)
- • 新评估:OpenAI-MRCR (多轮共指消解): 为了测试更真实的、需要理解多条信息并消歧的能力,OpenAI 开源了这个新评估。GPT-4.1 在 128K 内优于 GPT-4o,在 100 万 Token 下依然保持强劲性能。
![Image Placeholder: Graphs showing OpenAI-MRCR accuracy for 2, 4, and 8 needles across context lengths]
(图示:OpenAI-MRCR 在不同上下文长度下,处理 2、4、8 个“针”的准确率)
- • 新评估:Graphwalks (多跳推理): 模拟需要跨文档/文件跳转的复杂推理场景。GPT-4.1 达到 61.7% 准确率,追平 o1,远超 GPT-4o。
![Image Placeholder: Bar chart comparing Graphwalks BFS <128k accuracy]
(图表:Graphwalks BFS <128k 准确率对比)
开发者实测反馈:
- • Thomson Reuters (法律): 使用 CoCounsel 助手,多文档审查准确率比 GPT-4o 提升 17% ,能可靠处理涉及多个长文档的复杂法律工作流。
- • Carlyle (金融): 从多个长文档(PDF、Excel等)中提取金融数据,性能比其他模型好 50% ,首次克服了大海捞针、中间遗忘、多跳推理等关键限制。
延迟方面: 128K 上下文,首 Token 延迟 (p95) 约 15 秒;1M 上下文约 30 秒。GPT-4.1 nano 在 128K 输入下,首 Token 延迟通常小于 5 秒! Prompt Caching 还能进一步降低延迟和成本。
4. 视觉能力:Mini 模型成黑马!
GPT-4.1 家族的图像理解能力也很强。值得注意的是,GPT-4.1 mini 在多个图像基准上甚至击败了 GPT-4o,实现了小模型的巨大飞跃!
- • MMMU: GPT-4.1 mini (72.7%) ≈ GPT-4.1 (74.8%) > GPT-4o (68.7%)
- • MathVista: GPT-4.1 mini (73.1%) ≈ GPT-4.1 (72.2%) > GPT-4o (61.4%)
- • 长视频理解 (Video-MME, long w/o subs): GPT-4.1 拿下 72.0% ,刷新 SOTA,比 GPT-4o (65.3%) 提升 6.7%。
![Image Placeholder: Bar chart comparing Vision benchmark scores (MMMU, MathVista, etc.) highlighting GPT-4.1 mini's strong performance]
(图表:视觉基准测试分数对比,突出 GPT-4.1 mini 的优异表现)
5. 模型家族与定价:加量还降价!
这次 OpenAI 一口气推出三款模型,满足不同需求:
- • GPT-4.1: 旗舰性能,编码、指令、长文本、视觉全能选手。
- • GPT-4.1 mini: 中量级卷王!性能常超越 GPT-4o,延迟近减半,成本降低 83% !性价比极高。
- • GPT-4.1 nano: 速度与成本担当!OpenAI 最快、最便宜的模型,适合分类、自动补全等低延迟任务,居然也支持 100 万 Token 上下文!
定价感人(每百万 Token):
| 模型 | 输入 | 缓存输入 | 输出 | 混合定价* |
|---|---|---|---|---|
| gpt-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
| gpt-4.1-mini | $0.40 | $0.10 | $1.60 | $0.42 |
| gpt-4.1-nano | $0.10 | $0.025 | $0.40 | $0.12 |
*基于典型输入/输出和缓存比例估算。
对比一下,GPT-4.1 比 GPT-4o (中位数查询) 便宜 26% !
Prompt Caching 折扣从 50% 提高到 75%!
Batch API 使用再打 5 折!
重要提示:
- • GPT-4.1 系列目前仅通过 API 提供。 ChatGPT 中的 GPT-4o 会逐步融合这些改进。
- • GPT-4.5 Preview 将在三个月后(2025 年 7 月 14 日)下线。 请开发者尽快迁移到性能更好、成本更低的 GPT-4.1。
总结
OpenAI 这次发布的 GPT-4.1 系列,不是挤牙膏,而是实打实地针对开发者痛点进行了大幅优化。
更强的编码能力、更可靠的指令遵循、前所未有的百万级长文本处理,加上更快的速度和更低的价格,无疑将极大推动 AI 应用的落地,尤其是在构建更智能、更强大的 Agent 系统方面,开辟了新的可能性。
开发者社区的创造力一直是推动 AI 前进的重要力量。我们已经迫不及待想看到大家用 GPT-4.1 能创造出怎样惊艳的应用了!
是时候,去 API Playground 里把 GPT-4.1 跑起来了! 🔥