OpenAI深夜炸场！GPT-4.1 API横空出世：代码、指令、长文本全面暴涨，还有「纳米级」新卷王！各位开发者、AI

各位开发者、AI爱好者们，凌晨好！

就在刚刚，OpenAI又双叒叕搞了个大新闻——正式推出全新一代GPT模型系列：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano！

划重点：这波不仅是简单升级，而是全方位的大·飞·跃！

• 代码能力狂飙： SWE-bench 成绩碾压前代，码农狂喜！
• 指令遵循更精准： 复杂指令也能拿捏，Agent应用更有谱！
• 长文本处理逆天： 直接干到 100万 Token 上下文，还能吃透！
• 还有「纳米级」新秀： GPT-4.1 nano，又快又便宜，性能还不赖！
• 知识库更新： 截止到 2024 年 6 月，信息更新鲜。

更香的是，性能提升的同时，价格还更低了！ 这不是等等党的胜利，这是所有开发者的福音啊！

OpenAI 表示，新模型家族在各项基准测试中全面超越 GPT-4o 和 GPT-4o mini，尤其在开发者最关心的编码和指令遵循方面，提升堪称“史诗级”。

![Image Placeholder: Conceptual graphic showing GPT-4.1 outperforming older models on key metrics like coding, instruction following, long context]
(图片示意：GPT-4.1 在关键指标上超越旧模型)

赶紧来看看这波王炸的具体威力！

1. 代码能力：飙升！直接登顶？

写代码、改 Bug，AI 工程师的核心技能。这次 GPT-4.1 交出的答卷，有点惊人。

• SWE-bench Verified： 在这个衡量真实世界软件工程能力的硬核测试上，GPT-4.1 拿下了 54.6% 的高分！
- • 对比 GPT-4o (33.2%)，绝对提升 21.4% ！
- • 对比 GPT-4.5 (38.0%)，绝对提升 26.6% ！
- • 这成绩，妥妥的顶级编码模型水准。这意味着它能更好地理解代码库、完成任务、生成能跑通还能过测试的代码。

![Image Placeholder: Bar chart comparing SWE-bench Verified scores of different models, highlighting GPT-4.1's lead]
(图表：SWE-bench Verified 分数对比，GPT-4.1 遥遥领先)

• 代码修改 (Diffs)： 在 Aider 的多语言 diff 基准测试中，GPT-4.1 的分数是 GPT-4o 的两倍多，甚至比 GPT-4.5 还高 8%。它能更可靠地遵循 diff 格式，开发者只需输出更改行，节省成本和延迟。当然，如果你喜欢重写整个文件，输出 Token 上限也提高到了 32,768 (之前是 16,384)。

![Image Placeholder: Bar chart comparing Aider's polyglot diff benchmark scores]
(图表：Aider 多语言 diff 基准测试分数对比)

• 前端编码： 不仅能写，还能写得好看好用！OpenAI 内部盲测，人类评分员 80% 的时间更喜欢 GPT-4.1 生成的网站。下面这个 Flashcard 应用对比，高下立判：

![Image Placeholder: Side-by-side comparison of the Flashcard web app generated by GPT-4o vs GPT-4.1, showing GPT-4.1's superior functionality and aesthetics]
(图示：GPT-4o vs GPT-4.1 生成的 Flashcard 应用对比)

• 更少犯错： 内部评估显示，代码中无关的编辑错误率从 GPT-4o 的 9% 降至 GPT-4.1 的 2% 。

开发者实测反馈：

• Windsurf： 内部编码基准测试得分比 GPT-4o 高 60% ，工具调用效率提升 30%，重复编辑减少 50%。
• Qodo： 在生成 GitHub PR 代码审查方面，对 200 个真实 PR 进行测试，55% 的情况下 GPT-4.1 的建议更好，兼具精确性和全面性。

2. 指令遵循：更听话，更可靠！

让 AI 精确理解并执行指令，是通往强大 Agent 的关键一步。GPT-4.1 在这方面也下了苦功。

• 内部测试 (Hard Subset)： 针对格式遵循、否定指令、有序指令、内容要求、排序、避免过度自信等复杂指令场景，GPT-4.1 得分 49.1% ，远超 GPT-4o 的 29.2%。

![Image Placeholder: Bar chart comparing Internal OpenAI Instructions following eval accuracy (hard subset)]
(图表：OpenAI 内部指令遵循评估 (困难子集) 分数对比)

• 多轮对话指令 (MultiChallenge)： GPT-4.1 得分 38.3% ，比 GPT-4o 提升 10.5% ，能更好地记住和利用对话历史信息。
• IFEval (可验证指令)： GPT-4.1 得分 87.4% ，高于 GPT-4o 的 81.0%。

开发者实测反馈：

• Blue J (税务)： 在最难的真实税务场景基准上，GPT-4.1 准确率比 GPT-4o 高 53% ，对复杂法规理解和长文本指令遵循能力显著提升。
• Hex (SQL)： 在最具挑战性的 SQL 评估集上，性能提升近 2 倍，在大型模糊 Schema 中选择正确表格的能力更可靠。

3. 长文本：100万 Token！还能 hold 住！

上下文窗口的大小，直接决定了 AI 能处理的信息量。这次，OpenAI 直接把 GPT-4.1 全家桶的上下文窗口干到了 100 万 Token！什么概念？超过 8 个 React 完整代码库的大小！

处理大型代码库、海量文档，从此不再是难题。

关键是，不光窗口大，理解能力也得跟上。

• 大海捞针 (Needle in a Haystack)： GPT-4.1 能在 100 万 Token 的任意位置，精准找到隐藏信息，稳得一批！

![Image Placeholder: Graph showing GPT-4.1's near-perfect accuracy on the Needle in a Haystack test across different context lengths up to 1M tokens]
(图示：GPT-4.1 在不同长度上下文（最高1M）的大海捞针测试中准确率近乎完美)

• 新评估：OpenAI-MRCR (多轮共指消解)： 为了测试更真实的、需要理解多条信息并消歧的能力，OpenAI 开源了这个新评估。GPT-4.1 在 128K 内优于 GPT-4o，在 100 万 Token 下依然保持强劲性能。

![Image Placeholder: Graphs showing OpenAI-MRCR accuracy for 2, 4, and 8 needles across context lengths]
(图示：OpenAI-MRCR 在不同上下文长度下，处理 2、4、8 个“针”的准确率)

• 新评估：Graphwalks (多跳推理)： 模拟需要跨文档/文件跳转的复杂推理场景。GPT-4.1 达到 61.7% 准确率，追平 o1，远超 GPT-4o。

![Image Placeholder: Bar chart comparing Graphwalks BFS <128k accuracy]
(图表：Graphwalks BFS <128k 准确率对比)

开发者实测反馈：

• Thomson Reuters (法律)： 使用 CoCounsel 助手，多文档审查准确率比 GPT-4o 提升 17% ，能可靠处理涉及多个长文档的复杂法律工作流。
• Carlyle (金融)： 从多个长文档（PDF、Excel等）中提取金融数据，性能比其他模型好 50% ，首次克服了大海捞针、中间遗忘、多跳推理等关键限制。

延迟方面： 128K 上下文，首 Token 延迟 (p95) 约 15 秒；1M 上下文约 30 秒。GPT-4.1 nano 在 128K 输入下，首 Token 延迟通常小于 5 秒！ Prompt Caching 还能进一步降低延迟和成本。

4. 视觉能力：Mini 模型成黑马！

GPT-4.1 家族的图像理解能力也很强。值得注意的是，GPT-4.1 mini 在多个图像基准上甚至击败了 GPT-4o，实现了小模型的巨大飞跃！

• MMMU: GPT-4.1 mini (72.7%) ≈ GPT-4.1 (74.8%) > GPT-4o (68.7%)
• MathVista: GPT-4.1 mini (73.1%) ≈ GPT-4.1 (72.2%) > GPT-4o (61.4%)
• 长视频理解 (Video-MME, long w/o subs): GPT-4.1 拿下 72.0% ，刷新 SOTA，比 GPT-4o (65.3%) 提升 6.7%。

![Image Placeholder: Bar chart comparing Vision benchmark scores (MMMU, MathVista, etc.) highlighting GPT-4.1 mini's strong performance]
(图表：视觉基准测试分数对比，突出 GPT-4.1 mini 的优异表现)

5. 模型家族与定价：加量还降价！

这次 OpenAI 一口气推出三款模型，满足不同需求：

• GPT-4.1: 旗舰性能，编码、指令、长文本、视觉全能选手。
• GPT-4.1 mini: 中量级卷王！性能常超越 GPT-4o，延迟近减半，成本降低 83% ！性价比极高。
• GPT-4.1 nano: 速度与成本担当！OpenAI 最快、最便宜的模型，适合分类、自动补全等低延迟任务，居然也支持 100 万 Token 上下文！

定价感人（每百万 Token）：

模型	输入	缓存输入	输出	混合定价*
gpt-4.1	$2.00	$0.50	$8.00	$1.84
gpt-4.1-mini	$0.40	$0.10	$1.60	$0.42
gpt-4.1-nano	$0.10	$0.025	$0.40	$0.12

*基于典型输入/输出和缓存比例估算。

对比一下，GPT-4.1 比 GPT-4o (中位数查询) 便宜 26% ！
Prompt Caching 折扣从 50% 提高到 75%！
Batch API 使用再打 5 折！

重要提示：

• GPT-4.1 系列目前仅通过 API 提供。 ChatGPT 中的 GPT-4o 会逐步融合这些改进。
• GPT-4.5 Preview 将在三个月后（2025 年 7 月 14 日）下线。 请开发者尽快迁移到性能更好、成本更低的 GPT-4.1。

总结

OpenAI 这次发布的 GPT-4.1 系列，不是挤牙膏，而是实打实地针对开发者痛点进行了大幅优化。

更强的编码能力、更可靠的指令遵循、前所未有的百万级长文本处理，加上更快的速度和更低的价格，无疑将极大推动 AI 应用的落地，尤其是在构建更智能、更强大的 Agent 系统方面，开辟了新的可能性。

开发者社区的创造力一直是推动 AI 前进的重要力量。我们已经迫不及待想看到大家用 GPT-4.1 能创造出怎样惊艳的应用了！

是时候，去 API Playground 里把 GPT-4.1 跑起来了！ 🔥