GPT-5.5 来了:更会“干活”的 AI,不止会聊天

0 阅读6分钟

GPT-5.5 来了:更会“干活”的 AI,不止会聊天

[!note] 先给一句话 GPT-5.5 的重点不是“回答更像人”,而是“能把一件事做完”:它更擅长把复杂目标拆成步骤、调用工具、反复检查,最后交付一个可用的结果。

gpt55_agent_workflow.jpg

01 这次更新,OpenAI 想解决什么问题?

很多人对大模型的真实体验是这样的:

  • 让它写代码,能写出“看起来对”的代码,但跑不起来;
  • 让它查资料,能给出一堆链接,但你还得自己筛、自己总结;
  • 让它做一份表格或方案,能起草框架,可细节、校验、格式整理还是得你补。

OpenAI 在这次发布里把目标说得很直白:GPT-5.5 是“为真实工作与智能体(agents)”准备的,核心能力是理解复杂目标、使用工具、检查工作、把任务推进到完成,而不是停在“给出一段看似完整的回答”上。

02 GPT-5.5 的三件“更像同事”的事

1) 更能吃得下“乱糟糟的需求”

官方的说法是:你可以把一个“又长又杂”的任务直接丢给它,它会自己规划、处理歧义、不断推进。换成大白话就是:你不需要把每一步都写成指令,它也不太容易走两步就停。

[!tip] 你可以怎么试? 把“我要什么”说清楚,但别急着教它“怎么做”。例如:

  • “帮我把这 3 篇文章的关键观点合成一页会议纪要,并列出我该追问的问题。”
  • “我有一份旧的简历和一个 JD,请帮我改成更贴合岗位的版本,并给我 5 个面试自我介绍要点。”

2) 更会用工具,也更愿意自检

OpenAI 重点提到两类:工具使用(tool use)电脑操作(computer use)。 你可以理解为:模型不只是“讲怎么做”,而是能“动手做”,并且会在关键节点检查一下有没有跑偏。

官方文章里也提到它擅长跨工具完成工作,比如研究、数据分析、文档与表格制作、操作软件等。

3) 更聪明,但不更慢(而且更省 token)

这是发布里我觉得最“务实”的一句:GPT-5.5 在真实服务中的单 token 延迟与 GPT-5.4 接近,但整体能力明显更强;同时完成同类任务时,用的 token 更少、更省重试。

gpt55_smarter_not_slower.jpg

03 用数据说话:它在哪些方面进步明显?

如果你不关心基准测试(benchmark),可以跳过这一节;但数字有一个好处:它能告诉你 OpenAI 在押注什么。

[!info] 一句话看趋势 GPT-5.5 的提升集中在:长链路任务、工具协作、真实工程与真实办公场景,而不是只做“单轮问答题”。

下面摘几组官方给出的指标(只挑和“干活”相关、也相对好理解的):

  • Terminal-Bench 2.0:82.7% 更像“命令行里的真实流程题”,需要规划、迭代、协调工具。
  • OSWorld-Verified:78.7% 更像“会不会在电脑环境里把事做完”的测试。
  • GDPval(wins or ties):84.9% 聚焦多职业场景的“规范化知识工作交付”。

如果你是开发者,官方还提到它在 SWE-Bench Pro(公开) 上为 58.6%,并强调在 Codex 场景里更像“能接手工程任务”的模型:不只是写几段代码,而是能在一个代码库里做实现、重构、调试、测试与验证。

openai_example_bartosz_visual.png 用提示词让模型做出可交互的数学可视化应用

04 普通人最该关心的:它会改变哪些日常工作?

我更愿意把 GPT-5.5 理解为:“你给目标,它给交付物” 的成功率提高了。体感上会影响这些事:

1) 写作与整理:从“草稿机”更接近“编辑助理”

不只帮你写,而是帮你把结构理顺、把证据补齐、把逻辑漏洞指出来(前提是你愿意给它足够材料)。 做公众号/报告/方案这种“输入很乱、输出要很整齐”的活,理论上更吃香。

2) 代码与自动化:从“写函数”更接近“交付功能”

过去很多“AI 写代码”翻车点在于:缺测试、少验证、没跑通。 官方反复强调它更擅长检查假设、预测测试与评审需要、长时间保持在任务上——这其实就是工程交付里最贵的那部分。

3) 办公软件:从“教你点哪里”更接近“替你点完”

“会用表格、会做 PPT”这类能力,如果只是生成文本模板意义不大;真正有用的是:它能操作工具、把数据整理进正确的结构、并且自己校验一遍。

05 安全与开放:为什么这次也强调“更强的防护”?

能力越强,越容易被拿去做坏事,尤其是网络安全与生物/化学相关风险。OpenAI 表示 GPT-5.5 带着更强的防护上线:包括更完整的安全评估、内外部红队测试、针对高风险领域的定向测试,以及面向真实用例的早期伙伴反馈。

[!warning] 对用户意味着什么? 你可能会遇到更严格的拒答或更“多问两句”的提示——这未必是模型变笨,而可能是安全策略在起作用。

06 怎么用?现在谁能用?API 多少钱?

根据官方信息(具体以产品页面为准):

  • ChatGPT / Codex:GPT-5.5 已向 Plus、Pro、Business、Enterprise 推出;同时 GPT-5.5 Pro 向 Pro、Business、Enterprise 推出(不同档位可能有不同版本/权益)。
  • API:官方说“很快”会在 Responses 与 Chat Completions API 上线。 定价(官方披露):
    • gpt-5.5:5/1M输入tokens5 / 1M 输入 tokens**,**30 / 1M 输出 tokens(还提供 Batch / Flex 等半价档与 Priority 档)
    • gpt-5.5-pro:30/1M输入tokens30 / 1M 输入 tokens**,**180 / 1M 输出 tokens

[!tip] 一个小建议:别急着追最贵 很多场景的关键不是“模型上限”,而是“你是否把任务说成了可执行的交付”。先把任务拆清楚、把验收标准写出来,再换模型往往更划算。

07 你可以立刻上手的 5 个“更像真实工作”的提示词

  1. 把验收标准说清楚
    • “输出必须包含:目录、结论、关键数据来源链接、以及 3 条可执行建议。”
  2. 要求它先出计划再动手
    • “先给 8 步计划,我确认后你再执行。”
  3. 让它自检
    • “交付前请用 checklist 自查:事实是否有来源?数字有没有前后矛盾?是否遗漏关键风险?”
  4. 让它做对照版本
    • “给我保守版/激进版两套方案,并说明各自适用条件。”
  5. 让它承认不知道
    • “如果资料不足,请明确写出缺什么,并给我 5 个补充问题。”

08 写在最后:GPT-5.5 真的“更像智能体”了吗?

我读完这次发布的最大感受是:OpenAI 把“聪明”这件事,往更可用、更可交付的方向推了一步。 它不一定能让每个回答都惊艳,但如果它能把“做完这件事”的概率再抬高一点,那对普通人的价值反而更实在。

[!quote] 继续观察的点

  • 真实用户的“完成率”到底提升多少?还是只在少数任务上显著?
  • 更强的工具能力,会不会带来更多“看起来很会、实际乱点”的新问题?
  • API 上线后,成本与效果的性价比能否站得住?

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。