GPT-5.2深夜炸场，评测碾压谷歌Gemini 3 Pro，真正的打工人利器就在今天，OpenAI发布了最新的顶级模型

上周，OpenAI CEO奥特曼刚宣布完公司进入“红色警戒”（Code Red）状态，要求团队将工作重心转移到提高ChatGPT的性能和用户体验上后。

就在今天，OpenAI发布了最新的顶级模型 GPT-5.2系列。

先说一个可怕的事实，免费用户无法使用GPT-5.2.

如果你想要使用GPT-5.2，只能花钱。

感兴趣的，可以看我之前写的一篇文章

GPT-5.2 将向 ChatGPT 付费用户开放，并通过 API 提供给开发者，一共分为三个系列：

在OpenAI官方公布的基准测试中，它几乎对Gemini 3 Pro、Claude Opus 4.5实现了全方位碾压。

值得注意的是， GPT‑5.2 Thinking在AIME 2025（数学）的分数达到了满分， Gemini 3 Pro 的分数是 95%。

OpenAI应用CEO Fidji Simo曾说过，GPT-5.2 的设计目标就是为人们创造更多经济价值。

那么如何创造呢？

那就不得不提到GPT-5.2的拿手好戏：制作电子表格、构建演示文稿、编写代码、理解图像、处理超长上下文、使用工具，以及执行复杂的多步骤项目等等。

空口无凭，让我们先来看看数据。

在OpenAI新出的基准测试GDPval（覆盖 44 个职业、针对明确知识工作任务的评估体系）中，GPT-5.2 Thinking 在70.9%的任务上胜过或打平行业专家，GPT-5.2 Pro更高，为74.1%。

主要测试内容为制作演示文稿、电子表格以及其他专业产出物。

官方还放出了对比图，GPT-5.2 做的表格比GPT-5.1确实精细很多。

一个评审员对此的评价是：“看起来像是一个有员工的专业公司做的，布局和建议都很专业，虽然还有一些小错误需要修正。”

另外，GPT-5.2 Thinking生成输出的速度也超过人类专家11 倍以上，成本不到人类专家的1%。

OpenAI 声称这是AI模型首次达到了“人类专家水平”。

在ARC-AGI放出的测试中，此前o3 (High) 在ARC-AGI-1测试得分为88%，平均每项任务成本为4500美元。

而GPT-5.2 Pro (X-High) 最新SOTA得分为90.5%，是第一个突破90%的模型，它的平均任务成本仅为11.64美元，在一年内效率提高了约390倍。

ARC-AGI-2（抽象推理）的分数是 52.9%，相较此前翻了三倍，对比Gemini 3 Pro是 31.1 %。

GPT-5.2 Thinking的代码能力也同样刷新了纪录：

在SWE-bench Verified上，得分达到80%。

在SWE-Bench Pro上，得分达到55.6%。

SWE-Bench Pro是新的代码基准测试，比SWE-bench Verified更难，涵盖四种编程语言，不只是Python，更接近真实软件工程。

早期测试者特别提到，GPT-5.2在前端的能力也明显提升了，尤其是3D和复杂UI。

官方也放出了由单prompt生成的demo：

同时，GPT-5.2 Thinking在长文档处理方面的表现也很亮眼。

在OpenAI自制的MRCRv2（长文档中多个信息点的整合能力）评测中，GPT-5.2 Thinking成为首个在256k 上下文长的4-needle上达到接近100%准确率的模型。

不过，更难的8 needle版还是有明显下降。

GPT-5.2 Thinking的视觉能力也明显提升，错误率基本减半。

在CharXiv Reasoning测试中，GPT-5.2 Thinking得分达到88.7%，GPT-5.1是80.3%。

在ScreenSpot-Pro测试中，GPT-5.2 Thinking得分达到86.3%。GPT-5.1 是 64.2%。

在官方放出的示例中，OpenAI 要求模型识别输入图像中的组件，并返回带有大致边界框的标签。

即使在低质量图像上，GPT-5.2 也能识别出主要区域，并放置有时能与每个组件真实位置相匹配的框；而 GPT-5.1 仅标记了少数几个部分，且对其空间排列的理解要弱得多。

而且，GPT-5.2 Thinking 的幻觉比GPT-5.1 Thinking更少了。

在一组去标识化的ChatGPT查询中，前者包含错误的回答相对减少了30% 。

最后，我们来聊聊价格，GPT-5.2的价格一如既往的贵到离谱。

GPT-5.2的定价为1.75美元/百万输入Token，14美元/百万输出Token，缓存输入有90%的折扣，比GPT-5.1贵40%。

ChatGPT订阅价格不变。

但是！

在多个智能体评估中，尽管GPT-5.2的每Token成本更高，但GPT-5.2由于更高的Token效率，性价比反而更高。

ChatGPT 将于今日开始逐步推出 GPT-5.2（包括 Instant、Thinking 和 Pro 版本），首先面向付费用户（Plus、Pro、Go、Business 和 Enterprise 版本）提供。

为确保 ChatGPT 的流畅性和稳定性，GPT-5.2 将分阶段部署，在 ChatGPT 中，付费用户仍可在三个月内继续使用 GPT-5.1（旧版模式），之后 GPT-5.1 将逐步下线。