1. 发布背景与定位
7 月 17 日,OpenAI 正式在 ChatGPT 内推出 “Agent 模式” 。它将早期 Operator 的网页操作能力与 Deep Research 的深度信息整合能力合并,并在同一会话中无缝切换推理与行动,目标是把 ChatGPT 从“智能顾问”升级为“数字执行者”。
- 核心特性一览
| 类别 | 亮点 | 价值 |
|---|---|---|
| 统一工具箱 | 视觉浏览器、文本浏览器、终端、API 调用、Connectors(Gmail/GitHub 等) | 支持跨网站、跨系统的复杂链式任务 |
| 虚拟计算机 | 在隔离沙箱中“动手做事”并持续保存上下文 | 长流程不中断,结果可回放、可迭代 |
| 人机协同 | 关键操作前弹出授权;可随时暂停、接管或终止 | 既保留自动化效率,也确保用户主控权 |
| 安全栈升级 | Prompt Injection 防护、Watch Mode、浏览数据一键清除 | 把风险控制在可审计、可干预范围内 |
| 商用配额 | Pro 用户 400 条/月,Plus & Team 40 条/月,可按量加购 | 商业化与成本模型更清晰 |
3. 典型能力场景
- 商务分析:抓取三家竞争对手最新公开财报 → 生成对比表与 PPT 讲稿。
- 日程助理:读取日历、结合新闻摘要、自动调整并发出会议邀请。
- 数据科学:导入原始 CSV → 代码分析 → 导出含图表的 Excel。
- 生活琐事:预订旅行全流程、婚礼礼物采购、周度食材清单及下单。
这些多步任务在官方 Demo 与媒体实测中已得到验证
4. 性能与基准测试
- Humanity’s Last Exam (HLE) :Pass@1 41.6,较 o3/o4‑mini 翻倍
- FrontierMath:工具加持后 27.4 % 正确率,刷新纪录
- SpreadsheetBench:表格编辑 45.5 %,对比 Copilot in Excel 仅 20 %
这些成绩表明 Agent 的“工具选择 + 长时推理”策略在真实任务上已显著超越纯语言模型。
5. 实际体验与用户评价
| 反馈来源 | 正面 | 待改进 |
|---|---|---|
| WIRED 现场测试 | 可生成 PPT、自动填表;日常流程 5–25 min 可完成 | 复杂采购(例:定制杯⼦蛋糕)耗时近 1 h,速度仍受限 |
| TechCrunch | 支持 Connectors、可调用终端,功能跨度大 | 仍需观察在高并发场景下的稳定性 |
| Reddit 开服体验 | “未来感强”,但 Excel 填报仍有 2‑5 % 精度缺口,需要人工校对;整体准确率约五成起步 | |
| Axios 快评 | 真正把“研究 + 行动”打通,减轻反复人工干预 | Operator 时代“省时效果不明显”的老问题能否彻底解决尚待验证 |
| 量子位(中文) | 以“一夜之间人手一位大秘书”形容其冲击力,对国内创业赛道压力巨大 | 强调安全与配额限制,免费用户暂时无缘体验 |
综上:Agent 带来的生产力红利已被早期用户认可,但执行速度、稳定性和高精度仍是痛点
6. 风险与限制
- Prompt Injection:网页隐藏指令可能诱导泄密或误操作,官方通过分类器与人工确认双保险应对。
- 执行时长:长链任务易超时,官方建议阶段性询问进度或拆分子任务。
- 记忆功能暂时关闭:为避免持久数据被劫持,Agent 不读取“ChatGPT Memory”。
- 地区与配额:EEA/瑞士尚未开放;免费档暂不支持。
7. 与 Operator / Deep Research 的差异
| 功能 | Operator | Deep Research | ChatGPT Agent |
|---|---|---|---|
| 网页操作 | ✓ | ✕ | ✓ |
| 深度信息整合 | ✕ | ✓ | ✓ |
| 跨工具自动规划 | 部分 | 部分 | 完整 |
| 终端 / API 调用 | ✕ | ✕ | ✓ |
| 统一对话上下文 | 分离 | 分离 | 单一会话 |
Agent 是二者的超集,也是 OpenAI 在“能思考 + 能执行”方向的第一次完整产品化。
8. 对开发者与企业的启示
- 接口层机会:Connectors 策略意味着 SaaS 要提供易消费 API,才能被 Agent 纳入工作流。
- 安全治理先行:Prompt Injection、数据越权将成为企业侧首要风控议题。
- 多模态协作:虚拟浏览器 + 终端 + API 的多通道交互,为“人‑Agent‑系统”三角关系提供了新范式,可借鉴于内部机器人。
9. 展望
Agent 模式仍处“公开测试”阶段,但它已验证了长流程自动化的商业可行性。随着模型推理效率提升、记忆与更多第三方插件开放, “Agent OS” 有望重塑个人与企业生产力栈。
对开发者而言,这是构建“AI‑Native 应用”的零门槛入口;对组织而言,它将倒逼流程标准化与权限最小化;对整个生态而言,Agent 或许是从“万物皆应用”走向“万物皆流程”的临界点。
参考文献
- OpenAI. “Introducing ChatGPT agent: bridging research and action.” OpenAI, 17 July 2025. openai.com/index/intro… (OpenAI)
- OpenAI Help Center. “ChatGPT agent – release notes.” 更新于 17 July 2025. help.openai.com/en/articles… (OpenAI Help Center)
- Rogers, Reece. “OpenAI’s New ChatGPT Agent Tries to Do It All.” WIRED, 17 July 2025. www.wired.com/story/opena… (WIRED)
- Field, Hayden. “OpenAI’s new ChatGPT Agent can control an entire computer and do tasks for you.” The Verge, 17 July 2025. www.theverge.com/ai-artifici… (The Verge)
- Zeff, Maxwell. “OpenAI launches a general purpose agent in ChatGPT.” TechCrunch, 17 July 2025. techcrunch.com/2025/07/17/… (TechCrunch)
- Morrone, Megan. “ChatGPT’s new agent blends research and action.” Axios, 17 July 2025. www.axios.com/2025/07/17/… (Axios)
- r/OpenAI. “OpenAI’s New ChatGPT Agent Tries to Do It All.” Reddit, 17 July 2025. www.reddit.com/r/OpenAI/co… (Reddit)
- 量子位. “ChatGPT智能体正式发布,多个创业赛道昨夜无眠.” QbitAI, 18 July 2025. www.qbitai.com/2025/07/310… (qbitai.com)