GPT-5.5 来了：更会“干活”的 AI，不止会聊天GPT-5.5 来了：更会“干活”的 AI，不止会聊天 01 这次

GPT-5.5 来了：更会“干活”的 AI，不止会聊天

[!note] 先给一句话 GPT-5.5 的重点不是“回答更像人”，而是“能把一件事做完”：它更擅长把复杂目标拆成步骤、调用工具、反复检查，最后交付一个可用的结果。

很多人对大模型的真实体验是这样的：

OpenAI 在这次发布里把目标说得很直白：GPT-5.5 是“为真实工作与智能体（agents）”准备的，核心能力是理解复杂目标、使用工具、检查工作、把任务推进到完成，而不是停在“给出一段看似完整的回答”上。

官方的说法是：你可以把一个“又长又杂”的任务直接丢给它，它会自己规划、处理歧义、不断推进。换成大白话就是：你不需要把每一步都写成指令，它也不太容易走两步就停。

[!tip] 你可以怎么试？把“我要什么”说清楚，但别急着教它“怎么做”。例如：

“帮我把这 3 篇文章的关键观点合成一页会议纪要，并列出我该追问的问题。”

“我有一份旧的简历和一个 JD，请帮我改成更贴合岗位的版本，并给我 5 个面试自我介绍要点。”

OpenAI 重点提到两类：工具使用（tool use） 和 电脑操作（computer use）。你可以理解为：模型不只是“讲怎么做”，而是能“动手做”，并且会在关键节点检查一下有没有跑偏。

官方文章里也提到它擅长跨工具完成工作，比如研究、数据分析、文档与表格制作、操作软件等。

这是发布里我觉得最“务实”的一句：GPT-5.5 在真实服务中的单 token 延迟与 GPT-5.4 接近，但整体能力明显更强；同时完成同类任务时，用的 token 更少、更省重试。

如果你不关心基准测试（benchmark），可以跳过这一节；但数字有一个好处：它能告诉你 OpenAI 在押注什么。

[!info] 一句话看趋势 GPT-5.5 的提升集中在：长链路任务、工具协作、真实工程与真实办公场景，而不是只做“单轮问答题”。

下面摘几组官方给出的指标（只挑和“干活”相关、也相对好理解的）：

如果你是开发者，官方还提到它在 SWE-Bench Pro（公开） 上为 58.6%，并强调在 Codex 场景里更像“能接手工程任务”的模型：不只是写几段代码，而是能在一个代码库里做实现、重构、调试、测试与验证。

用提示词让模型做出可交互的数学可视化应用

我更愿意把 GPT-5.5 理解为：“你给目标，它给交付物” 的成功率提高了。体感上会影响这些事：

不只帮你写，而是帮你把结构理顺、把证据补齐、把逻辑漏洞指出来（前提是你愿意给它足够材料）。做公众号/报告/方案这种“输入很乱、输出要很整齐”的活，理论上更吃香。

过去很多“AI 写代码”翻车点在于：缺测试、少验证、没跑通。官方反复强调它更擅长检查假设、预测测试与评审需要、长时间保持在任务上——这其实就是工程交付里最贵的那部分。

“会用表格、会做 PPT”这类能力，如果只是生成文本模板意义不大；真正有用的是：它能操作工具、把数据整理进正确的结构、并且自己校验一遍。

能力越强，越容易被拿去做坏事，尤其是网络安全与生物/化学相关风险。OpenAI 表示 GPT-5.5 带着更强的防护上线：包括更完整的安全评估、内外部红队测试、针对高风险领域的定向测试，以及面向真实用例的早期伙伴反馈。

[!warning] 对用户意味着什么？你可能会遇到更严格的拒答或更“多问两句”的提示——这未必是模型变笨，而可能是安全策略在起作用。

根据官方信息（具体以产品页面为准）：

ChatGPT / Codex：GPT-5.5 已向 Plus、Pro、Business、Enterprise 推出；同时 GPT-5.5 Pro 向 Pro、Business、Enterprise 推出（不同档位可能有不同版本/权益）。
API：官方说“很快”会在 Responses 与 Chat Completions API 上线。定价（官方披露）：
- gpt-5.5： $5 / 1M 输入 tokens**，**$ 30 / 1M 输出 tokens（还提供 Batch / Flex 等半价档与 Priority 档）
- gpt-5.5-pro： $30 / 1M 输入 tokens**，**$ 180 / 1M 输出 tokens

[!tip] 一个小建议：别急着追最贵很多场景的关键不是“模型上限”，而是“你是否把任务说成了可执行的交付”。先把任务拆清楚、把验收标准写出来，再换模型往往更划算。

我读完这次发布的最大感受是：OpenAI 把“聪明”这件事，往更可用、更可交付的方向推了一步。它不一定能让每个回答都惊艳，但如果它能把“做完这件事”的概率再抬高一点，那对普通人的价值反而更实在。

[!quote] 继续观察的点

真实用户的“完成率”到底提升多少？还是只在少数任务上显著？

更强的工具能力，会不会带来更多“看起来很会、实际乱点”的新问题？

API 上线后，成本与效果的性价比能否站得住？

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。