一文看懂:Claude 4 更新了啥?好不好用?

0 阅读2分钟

今天凌晨,Anthropic 推出 Claude 4 系列模型。发布即可用。

Claude Opus 4(加强版)

Claude Sonnet 4(普通版)

Image

这两款都是混合推理模型,同时支持 Extended thinking(扩展推理)、工件调用、文件读取、并行任务等核心功能。

其中:Claude Opus 4:定位最强、最智能的模型,专为复杂推理、顶级编程和 AI Agent 工作流打造。Claude Sonnet 4:兼具高推理能力和高效率,是 Claude 3.7 Sonnet 的升级版。

Image

两大新模型:

✅ 在 网页+App 端:Sonnet 免费,Opus 4 付费。

✅ 在 API 端:上下文均为 200k,定价与上一代相同,百万 token:

    - Opus 输入 15,输出15,输出 75

    - Sonnet 输入 3,输出3,输出 15

Image

Claude 4 核心亮点

登顶最强编程 AI:Claude 4 Opus 在无需延伸思考的 SWE-bench Verified 和 Terminal-bench 评测中,分别以 72.5%和43.2% 的得分超越 GPT-4.1 和 Gemini 2.5 Pro。

Opus 4 和 Sonnet 4 与其他 LLM 的比较基准表

更惊艳的是:一旦启用长思考(最长支持 64K token 输入),Claude 4 两大模型的上限被进一步拉高。在 GPQA、MMMLU、AIME 等测试中,几乎没有对手。

Claude 与其他 LLM 在软件工程任务上的条形图比较

作为 Claude Sonnet 3.7 的升级版,Claude Sonnet 4其实也不差,在SWE-bench 上以 72.7% 分,超过了目前所有的 AI 模型。

Claude 4 新能力

⭕️ AI Agent 全面进化

Image

Anthropic 明确指出,未来优秀的 AI Agent 需要三种能力:

感知情境:不仅理解任务,更理解你是谁、在做什么,甚至为什么做?

执行长任务:能独立完成长流程、复杂结构的任务,甚至与其他人类或 AI 协作。

真实协作:能展开高质量对话、适配你的工作流,并提供清晰的推理解释。

Image

在《宝可梦》测试中 Opus 4 表现惊艳。

Image

⭕️ Claude Code

全面开放几个月前,Anthropic 曾以研究预览的形式上线了——Claude Code。

如今,它来了!新增内容包括:

✅ 支持 GitHub Actions

✅ 原生集成 IDE

✅ Claude Code SDK

✅ 在 GitHub 中 @Claude

Image

⭕️ API 四大更新

✅ Code Execution Tool

✅ MCP Connector

✅ Files API

✅ 提示缓存 1 小时

Image

这些 API 能力相辅相成:

现在,Claude 不仅能写代码、理解你的系统需求,还能实时获取最新信息。
它能记住对话上下文,处理更长时间的任务.
通过Files API,它还能随时调用之前的记录,让工作衔接得更顺畅。