就在刚刚,Anthropic 官方在 X(原 Twitter)上正式宣布:Claude Opus 4.6 和 Sonnet 4.6 的 100万 Token(1M Context Window)上下文窗口正式 GA(Generally Available)。
这不是期货,不是内测,而是实打实的全量开放。
作为一名在 LLM 应用层摸爬滚打的开发者,看到这个消息时的心情是复杂的。兴奋的是,我们终于有了能和 Gemini 3.1 Pro 在长文本领域正面硬刚的选手;担忧的是,手里的架构图可能又要重画了。
今天这篇文,咱们不聊虚的,就从技术角度深度扒一扒这次更新意味着什么,以及作为开发者,我们该如何应对这种“通货膨胀”式的上下文升级。
1. 100万 Token,到底是不是噱头?
首先,我们得搞清楚 1M Token 是个什么概念。
在 Claude Opus 4.6 的语境下,100万 Token 大约对应:
- 75,000+ 行代码:这意味着你可以把一个中型后端服务的整个仓库直接塞进去,让它做全局重构建议,而不是像以前那样只能贴几个文件。
- 2500 页的 PDF 文档:财报分析、法律合同审查,甚至是一整套技术标准规范。
- 600 张高清图片:这次更新顺带把多模态的输入限制从 100 提升到了 600,对于做视觉理解(Visual Understanding)的同学来说是个大利好。
但数字大不代表好用。长文本模型最大的痛点一直有两个:“大海捞针”(Needle In A Haystack)的召回率和推理成本。
并不是所有的 1M 都是平等的
之前的长文本模型(比如早期的 Gemini 1.5),在处理中间段落的信息时,往往会出现“Lost in the Middle”现象——即模型能记住开头和结尾,但容易忽略中间的信息。
而根据 Anthropic 披露的数据,Claude Opus 4.6 在 MRCR v2(Multi-Round Context Retrieval)基准测试中拿到了 78.3% 的高分。这个分数在目前所有支持 1M Context 的前沿模型中是最高的。这意味着它不仅能“装”得多,还能“找”得准。在实际测试中,即使是藏在第 80 万个 Token 处的某个变量定义,它也能准确地在新代码中引用。
2. RAG 已死?不,RAG 变了
每次上下文扩容,社区里都会响起“RAG(检索增强生成)已死”的论调。
我的观点是:RAG 没死,但它从“拐杖”变成了“望远镜”。
在 4k、8k 上下文的时代,RAG 是刚需,因为模型脑容量太小,必须靠向量数据库(Vector DB)来外挂知识库。现在有了 1M Context,还需要 RAG 吗?
依然需要,但侧重点不同了。
- 延迟(Latency)是物理法则:处理 1M Token 的 Prompt,光是 Prefill(预填充)阶段的时间就可能长达几十秒甚至更久。对于实时交互的应用(比如客服机器人),你不可能每次都把整本说明书塞进去。
- 成本(Cost)是商业法则:虽然 Opus 4.6 的价格维持在 25(输入/输出每百万 Token),Sonnet 4.6 是 15,但如果你每次请求都带上 1M 的上下文,跑一次就是几美元。这个烧钱速度,家里有矿也顶不住。
未来的架构是 Hybrid(混合)的:
- RAG 负责粗筛:从海量数据(比如 100GB 的企业文档)中检索出最相关的 Top-50 片段,拼凑出 50k - 100k 的上下文。
- Long Context 负责推理:把这 100k 的“精准上下文”喂给 Claude Opus 4.6,利用它强大的逻辑推理能力进行深度分析。
RAG 不再是用来规避 Context 限制,而是用来优化 Context 的信噪比。
3. Context Caching:长文本的救命稻草
这次更新中,还有一个非常关键但容易被忽视的技术点:Context Caching(上下文缓存)。
如果你要开发一个基于全库代码的编程助手,每次用户问一个问题,你都要把 7 万行代码重新发给模型吗?那太蠢了。
Claude 的 Context Caching 允许我们将静态的上下文(比如那 7 万行代码、或者一份固定的产品手册)缓存起来。后续的请求只需要发送新的 Prompt(比如“帮我修复这个 bug”),模型会直接复用缓存的 KV Cache。
这直接带来了两个质变:
- 成本降低 90%:缓存的 Token 费用通常远低于实时输入的 Token。
- 首字延迟(TTFT)大幅降低:因为不需要重新计算几万个 Token 的 Attention,响应速度几乎和短文本一样快。
这也对开发者提出了新的要求:Context Engineering。我们需要精心设计 Prompt 的结构,把静态内容放在前面做缓存,动态内容放在后面,以最大化缓存命中率。
4. 多模型混战:开发者该如何选择?
现在市面上的长文本模型神仙打架:
- Claude Opus 4.6 (1M):逻辑推理最强,代码能力天花板,适合复杂任务。
- Gemini 1.5 Pro (2M):窗口最大,原生多模态能力强(视频理解),生态整合好。
- GPT-4o (128k):虽然窗口没那么大,但指令遵循和生态依然稳健。
对于开发者来说,绑定死一个模型是非常危险的。今天 Claude 强,明天可能 Gemini 又更新了 2.0。
这也是为什么我最近一直在推崇 “模型聚合” 的开发模式。与其自己在代码里写死 OpenAI 的 SDK,不如套一层中间层。
这里实名安利一下我一直在用的 147API 。
为什么提它?因为在长文本这个场景下,它的优势太明显了:
- 极速适配:Claude Opus 4.6 刚出 GA,147API 马上就支持了。你不需要去 Anthropic 官网排队申请,直接改个
model参数就能用。 - 统一接口:它把 Claude、Gemini、OpenAI 的接口格式统一了。你想测试“到底是 Claude 找 bug 准,还是 Gemini 读财报快”,只需要在代码里换个字符串,不用重写整个 API 调用逻辑。
- 成本控制:对于企业级应用,它可以分发不同渠道的 Key,避免单点故障,还能监控 Token 用量,防止因为 1M Context 误调用导致的账单爆炸。
如果你正在做长文本应用(比如法律文书分析、长小说续写、全库代码审计),强烈建议通过聚合层来接入,给自己留一条后路。
5. 结语
Claude Opus 4.6 的 100万 Context GA,标志着我们正式进入了**“大内存 AI”**时代。
以前我们像是在用几十 KB 内存的单片机写程序,每一 bit 都要精打细算;现在,我们终于用上了 GB 级内存的现代计算机。虽然“内存泄露”(Lost in the Middle)和“内存太贵”(Token Cost)的问题依然存在,但可能性的边界已经被极大地拓宽了。
作为开发者,别再抱着 RAG 不放了,去试试把整个世界塞进 Prompt 里的感觉吧。