Claude100万 Context 正式 GA,RAG 的棺材板还要压多久?

3 阅读6分钟

就在刚刚,Anthropic 官方在 X(原 Twitter)上正式宣布:Claude Opus 4.6 和 Sonnet 4.6 的 100万 Token(1M Context Window)上下文窗口正式 GA(Generally Available)

这不是期货,不是内测,而是实打实的全量开放。

作为一名在 LLM 应用层摸爬滚打的开发者,看到这个消息时的心情是复杂的。兴奋的是,我们终于有了能和 Gemini 3.1 Pro 在长文本领域正面硬刚的选手;担忧的是,手里的架构图可能又要重画了。

今天这篇文,咱们不聊虚的,就从技术角度深度扒一扒这次更新意味着什么,以及作为开发者,我们该如何应对这种“通货膨胀”式的上下文升级。

1. 100万 Token,到底是不是噱头?

首先,我们得搞清楚 1M Token 是个什么概念。

在 Claude Opus 4.6 的语境下,100万 Token 大约对应:

  • 75,000+ 行代码:这意味着你可以把一个中型后端服务的整个仓库直接塞进去,让它做全局重构建议,而不是像以前那样只能贴几个文件。
  • 2500 页的 PDF 文档:财报分析、法律合同审查,甚至是一整套技术标准规范。
  • 600 张高清图片:这次更新顺带把多模态的输入限制从 100 提升到了 600,对于做视觉理解(Visual Understanding)的同学来说是个大利好。

但数字大不代表好用。长文本模型最大的痛点一直有两个:“大海捞针”(Needle In A Haystack)的召回率推理成本

并不是所有的 1M 都是平等的

之前的长文本模型(比如早期的 Gemini 1.5),在处理中间段落的信息时,往往会出现“Lost in the Middle”现象——即模型能记住开头和结尾,但容易忽略中间的信息。

而根据 Anthropic 披露的数据,Claude Opus 4.6 在 MRCR v2(Multi-Round Context Retrieval)基准测试中拿到了 78.3% 的高分。这个分数在目前所有支持 1M Context 的前沿模型中是最高的。这意味着它不仅能“装”得多,还能“找”得准。在实际测试中,即使是藏在第 80 万个 Token 处的某个变量定义,它也能准确地在新代码中引用。

2. RAG 已死?不,RAG 变了

每次上下文扩容,社区里都会响起“RAG(检索增强生成)已死”的论调。

我的观点是:RAG 没死,但它从“拐杖”变成了“望远镜”。

在 4k、8k 上下文的时代,RAG 是刚需,因为模型脑容量太小,必须靠向量数据库(Vector DB)来外挂知识库。现在有了 1M Context,还需要 RAG 吗?

依然需要,但侧重点不同了。

  1. 延迟(Latency)是物理法则:处理 1M Token 的 Prompt,光是 Prefill(预填充)阶段的时间就可能长达几十秒甚至更久。对于实时交互的应用(比如客服机器人),你不可能每次都把整本说明书塞进去。
  2. 成本(Cost)是商业法则:虽然 Opus 4.6 的价格维持在 5/ 5/25(输入/输出每百万 Token),Sonnet 4.6 是 3/3/15,但如果你每次请求都带上 1M 的上下文,跑一次就是几美元。这个烧钱速度,家里有矿也顶不住。

未来的架构是 Hybrid(混合)的

  • RAG 负责粗筛:从海量数据(比如 100GB 的企业文档)中检索出最相关的 Top-50 片段,拼凑出 50k - 100k 的上下文。
  • Long Context 负责推理:把这 100k 的“精准上下文”喂给 Claude Opus 4.6,利用它强大的逻辑推理能力进行深度分析。

RAG 不再是用来规避 Context 限制,而是用来优化 Context 的信噪比

3. Context Caching:长文本的救命稻草

这次更新中,还有一个非常关键但容易被忽视的技术点:Context Caching(上下文缓存)

如果你要开发一个基于全库代码的编程助手,每次用户问一个问题,你都要把 7 万行代码重新发给模型吗?那太蠢了。

Claude 的 Context Caching 允许我们将静态的上下文(比如那 7 万行代码、或者一份固定的产品手册)缓存起来。后续的请求只需要发送新的 Prompt(比如“帮我修复这个 bug”),模型会直接复用缓存的 KV Cache。

这直接带来了两个质变:

  1. 成本降低 90%:缓存的 Token 费用通常远低于实时输入的 Token。
  2. 首字延迟(TTFT)大幅降低:因为不需要重新计算几万个 Token 的 Attention,响应速度几乎和短文本一样快。

这也对开发者提出了新的要求:Context Engineering。我们需要精心设计 Prompt 的结构,把静态内容放在前面做缓存,动态内容放在后面,以最大化缓存命中率。

4. 多模型混战:开发者该如何选择?

现在市面上的长文本模型神仙打架:

  • Claude Opus 4.6 (1M):逻辑推理最强,代码能力天花板,适合复杂任务。
  • Gemini 1.5 Pro (2M):窗口最大,原生多模态能力强(视频理解),生态整合好。
  • GPT-4o (128k):虽然窗口没那么大,但指令遵循和生态依然稳健。

对于开发者来说,绑定死一个模型是非常危险的。今天 Claude 强,明天可能 Gemini 又更新了 2.0。

这也是为什么我最近一直在推崇 “模型聚合” 的开发模式。与其自己在代码里写死 OpenAI 的 SDK,不如套一层中间层。

这里实名安利一下我一直在用的 147API

为什么提它?因为在长文本这个场景下,它的优势太明显了:

  1. 极速适配:Claude Opus 4.6 刚出 GA,147API 马上就支持了。你不需要去 Anthropic 官网排队申请,直接改个 model 参数就能用。
  2. 统一接口:它把 Claude、Gemini、OpenAI 的接口格式统一了。你想测试“到底是 Claude 找 bug 准,还是 Gemini 读财报快”,只需要在代码里换个字符串,不用重写整个 API 调用逻辑。
  3. 成本控制:对于企业级应用,它可以分发不同渠道的 Key,避免单点故障,还能监控 Token 用量,防止因为 1M Context 误调用导致的账单爆炸。

如果你正在做长文本应用(比如法律文书分析、长小说续写、全库代码审计),强烈建议通过聚合层来接入,给自己留一条后路。

5. 结语

Claude Opus 4.6 的 100万 Context GA,标志着我们正式进入了**“大内存 AI”**时代。

以前我们像是在用几十 KB 内存的单片机写程序,每一 bit 都要精打细算;现在,我们终于用上了 GB 级内存的现代计算机。虽然“内存泄露”(Lost in the Middle)和“内存太贵”(Token Cost)的问题依然存在,但可能性的边界已经被极大地拓宽了。

作为开发者,别再抱着 RAG 不放了,去试试把整个世界塞进 Prompt 里的感觉吧。