用了 47 天龙虾后，我又回到了 Claude Code📖 本文目录 01 国产大模型为什么突然反超了 02 47 天

3 月 1 号，一个做独立开发的朋友深夜发来消息："别再给 Anthropic 送钱了，国产大模型编程已经超过 Claude 了。你试试龙虾。"

他说的龙虾，就是 Lobster——一个接入国产大模型的 AI 编程客户端，背后是 Kimi K2、GLM-5、DeepSeek R2 这些刷榜怪物。基准测试分数连续多周压着 Claude 和 GPT 打。

我信了。Claude Code 每月 💲200 的 API 费用确实肉疼，国产模型便宜 10 倍不止。于是我给自己定了个规矩：连续用 47 天龙虾做真实项目，不碰 Claude Code。

47 天后，我默默打开终端，输入 claude，回到了 Claude Code。

不是国产模型不行——是"模型能力"和"编程生产力"之间，隔着一条叫"工具链"的鸿沟。

📖 本文目录

01 国产大模型为什么突然反超了
02 47 天真实体验：好的、坏的、崩溃的
03 我为什么又回来了
04 独立开发者选型指南

🚀 01 国产大模型为什么突然反超了

先说事实。2026 年 Q1，国产大模型在编程基准测试上的表现，确实炸裂。

Kimi K2 在 SWE-bench Verified 上拿到 65.9%，直接超过了 Claude Opus 4 的 64.0%。GLM-5 在代码生成任务上的 HumanEval 得分冲到 93.7%。DeepSeek R2 开源即巅峰，推理链长度碾压一切闭源模型，多步代码修复准确率极高。

如果你只看排行榜，结论很简单：国产模型赢了。

2026 Q1 国产大模型编程能力速览

Kimi K2（月之暗面） 万亿参数 MoE 架构，32 个专家同时激活。SWE-bench 65.9%，编程排行榜连续 3 周第一。API 定价只有 Claude 的 1/8。

GLM-5（智谱 AI） 全模态大模型，代码生成只是"附赠技能"。HumanEval 93.7%，中文编程场景理解力极强。支持 128K 上下文。

DeepSeek R2（深度求索） 开源推理模型，671B 参数。长链推理是它的杀手锏——给它一个复杂 bug，它会像侦探一样一步步排查。完全开源，本地部署零成本。

这三个模型在 2 月到 3 月密集发布，直接把国产 AI 编程的热度推到了历史最高。朋友圈里做开发的，十个有八个在讨论"是不是该换国产了"。

工具层面也跟上了。Lobechat（开源 AI 客户端）加了编程模式，龙虾（Lobster）更激进——直接对标 Cursor，做了一个完整的 AI 编程 IDE，原生支持国产模型切换。

说实话，看到这些数据的时候我是兴奋的。不只是省钱——而是终于有了一个不用翻墙、不怕封号、不用担心数据出境的替代方案。

于是，我正式开始了 47 天的"全面国产化"实验。

我给自己定了规则：主力项目全部切到龙虾 + Kimi K2，辅助用 GLM-5 写文档，复杂推理用 DeepSeek R2。Claude Code 的 API Key 从环境变量里删掉，断了自己的退路。

💬 评论区选一下

你现在主力用的 AI 编程模型是？

A. Claude（Opus / Sonnet）
B. GPT（o3 / 4o）
C. 国产（Kimi / GLM / DeepSeek）
D. 混着用，看场景切

我先说：我选 A，但这 47 天里我选的是 C。结果怎么样，往下看。

🔬 02 47 天真实体验：好的、坏的、崩溃的

我的实验环境：一个 6 平台（Android + iOS + Web + 小程序 + Cocos + 后端）的真实商业项目。不是写 demo，不是跑 leetcode，是每天要交付的生产代码。

先说好的部分。

✅ 国产模型确实强的场景

1. 中文需求理解 我用中文描述一个业务逻辑，Kimi K2 的理解准确率明显高于 Claude。不需要反复解释"这里的'挂单'是指交易系统里的限价委托"这种上下文。中文语义的颗粒度就是比英文模型细。

2. 中文文档和注释生成 让 GLM-5 写中文技术文档，质量甩 Claude 一条街。不会出现"此函数负责处理用户的请求并返回相应的结果"这种正确但无用的废话。

3. 单文件代码生成速度 写一个独立的工具函数、一个 Vue 页面、一个 API 接口——这种"给我写个 XX"的任务，国产模型又快又好。Kimi K2 的首 token 延迟只有 Claude 的 1/3。

4. 价格 Kimi K2 API 每百万 token 输入 💲0.6，输出 💲2.0。Claude Opus 是输入 💲15，输出 💲75。差距是 10-37 倍。一个月省下来够交半年房租。

5. 本地化生态 国产模型不用翻墙，不用担心地区封禁，不用绑海外信用卡。对很多独立开发者来说，光是"注册就能用"这件事，就已经赢了一大半。DeepSeek R2 开源后甚至可以本地部署，数据完全不出境。

前两周我是真的开心。写得快、理解准、账单低。我甚至在群里跟朋友说："Claude 可能真的要被淘汰了。"

⚠️ 如果你也在前两周就下了结论，先别急。很多工具的问题，不是用两周能发现的——要到你依赖它交付真实项目的时候，才会暴露。

然后，坏的部分来了。

❌ 第三周开始暴露的问题

1. 跨文件修改像开盲盒 改一个数据模型，需要同步更新 API、前端类型定义、数据库迁移脚本、单元测试。Claude Code 的 Agent 会自动遍历依赖链，一次改完 12 个文件。龙虾里的国产模型只改了 3 个，剩下 9 个报错要我手动补。

2. 上下文窗口是纸面数字 Kimi K2 号称 128K 上下文。但实测超过 60K token 后，模型开始"忘事"——前面定义的接口规范，后面生成代码时就不遵守了。Claude Code 在 200K 窗口内的一致性，目前没有对手。

3. 复杂架构设计力不从心 我让模型设计一个事件驱动的消息队列系统。DeepSeek R2 的推理链确实长，但推着推着就跑偏了——最后给我输出了一个"用 Redis List 模拟消息队列"的方案。技术上不算错，但离生产级差了十万八千里。

4. Agent 自主性几乎为零 这是最致命的。Claude Code 的 Agent 能自己读文件、自己跑测试、自己修 bug、自己 commit。龙虾里的模型只能"你问我答"——你得一步步喂信息，它才能一步步输出。这不是 AI 编程，这是高级自动补全。

第四周，我开始记录"因为模型问题导致的返工时间"。数据很残酷：**平均每天 2.3 小时在修模型的输出。**而用 Claude Code 的时候，这个数字是 0.4 小时。

换算一下：47 天里返工时间超过 100 小时。按独立开发者时薪 💲50 算，隐性成本 💲5000。省下的 API 费？撑死 💲300。

第五周，一次重构彻底让我崩溃。

我要把项目的状态管理从 Vuex 迁移到 Pinia。涉及 47 个文件，200+ 处 store 调用需要改写。在 Claude Code 里，我只需要说一句"把所有 Vuex store 迁移到 Pinia，保持 API 兼容"，Agent 会自己扫描全项目、生成迁移计划、逐文件改写、跑测试确认。整个过程 40 分钟。

龙虾里，我得一个文件一个文件喂给模型，手动告诉它"这是旧代码，改成 Pinia 的写法"。改到第 20 个文件的时候，模型把前面的命名规范忘了，生成的代码风格跟前 19 个不一致。我改了三天。

省下来的 API 费用，全赔在了人工返工上。模型便宜 10 倍，时间贵了 5 倍。算总账，我亏了。

💬 继续选

你觉得国产 AI 编程和海外差距最大的地方是？

A. 模型编程能力本身
B. 长上下文一致性
C. 工具链和生态
D. 其实没差距，用法不同而已

我选 C。模型能力差距在快速缩小，但工具链的差距，可能需要一两年才能追上。下一章展开讲。

🔑 03 我为什么又回来了

第 47 天结束的时候，我做了一个复盘。结论出乎意料：国产模型的编程能力确实接近甚至局部超过 Claude，但我回到 Claude Code 的原因，跟模型能力无关。

让我回来的，是 Claude Code 那套模型之外的工具链体系。龙虾和 Lobechat 给你的是"一个模型 + 一个对话框"。Claude Code 给你的是"一个模型 + 一整套生产力操作系统"。

这两者的差距有多大？我列四个最关键的。

差距一：上下文工程 vs 裸聊

Claude Code 有 CLAUDE.md——一个项目级的永久记忆文件。我在里面写了 20 条铁律：代码风格、目录规范、禁止行为、技术栈约定。每次对话，模型都会先读这个文件，然后严格遵守。

龙虾没有这个机制。每次开新对话，一切从零开始。我得反复告诉模型"用 TypeScript 不要用 any""注释写中文""间距只能用 4/8/12/16"。这就像雇了一个每天早上都失忆的员工——能力不差，但你得每天重新培训。

差距二：MCP 工具链 vs 纯文本对话

我给 Claude Code 接了 17 个 MCP 服务器：Playwright 做浏览器测试、Figma 读设计稿、微信读聊天记录、Cocos 控制游戏编辑器、iOS MCP 控制真机……模型不只是在"写代码"，它能直接操作外部世界。

龙虾对 MCP 的支持几乎为零。它只能读你粘贴给它的文本，生成一段代码让你自己去跑。模型的眼睛被蒙住了，手也被绑住了。

差距三：Skills 按需加载 vs 全靠提示词

Claude Code 有 Skills 系统——你可以把领域知识打包成 Skill，需要的时候自动加载。比如我写 Android UI 的时候，系统自动加载 Compose 的间距/圆角/字号铁律；写后端 API 的时候，自动加载 FastAPI 接口规范。

这意味着模型不只知道"怎么写代码"，还知道"我这个项目里代码应该长什么样"。国产工具目前没有类似机制——你只能每次手动把规范粘贴到对话开头。

差距四：自主 Agent vs 问答机器人

Claude Code 的 Agent 能自主执行一个完整任务：读代码 → 分析依赖 → 生成方案 → 写代码 → 跑测试 → 修 bug → 提交。整个循环里，我只需要在关键节点审批。

龙虾里的模型只能做其中一步。你问它"怎么修"，它给你一段代码。你粘贴进去发现报错，再把报错粘回来。你来回传递信息，模型只负责"想"。这不是 Agent，这是 ChatGPT 套了个壳。

📌 值得截图保存：AI 编程生产力公式

生产力 = 模型能力 × 上下文工程 × 工具链 × Agent 自主性

国产方案：90 分 × 30 分 × 20 分 × 10 分 = 54,000 Claude Code：85 分 × 90 分 × 95 分 × 90 分 = 6,547,500

模型能力只是四个变量之一。当其他三个变量差 3-9 倍时，模型多 5 分根本补不回来。

这就是我回来的原因。不是"Claude 模型更好"——是 Claude Code 这个产品构建了一套完整的 AI 编程操作系统，而国产工具还停留在"给你一个聪明的聊天框"。

打个比方：国产模型是一个优秀的发动机。但 Claude Code 是一辆整车——有方向盘、有变速箱、有导航、有安全气囊。你不能只比发动机参数，然后说"这辆散装发动机比那辆整车强"。

🧭 04 独立开发者选型指南

骂完了，说点建设性的。47 天不是白费的——我摸清了什么场景该用什么工具。

场景 → 工具选型表

场景	推荐工具	理由
写独立函数/工具脚本	国产（Kimi K2）	快、便宜、中文理解好
写中文技术文档	国产（GLM-5）	中文表达地道，不翻译腔
算法题/面试题解析	国产（DeepSeek R2）	推理链长，解题过程清晰
跨文件重构	Claude Code	Agent 自主遍历依赖链
多平台项目开发	Claude Code	CLAUDE.md + Skills 保持一致性
架构设计	Claude Code	长上下文一致性 + MCP 读全局
自动化测试/部署	Claude Code	Routines + Bash 执行 = 全自动
数据合规敏感项目	国产（DeepSeek R2 本地部署）	数据不出境，完全可控

你会发现一个规律：任务越简单、越独立，国产方案越有优势；任务越复杂、越需要协作，Claude Code 越不可替代。

对独立开发者来说，我的建议是不要二选一，而是组合使用：

主力用 Claude Code 做架构设计和复杂编码（占工作量 60%） 辅助用国产模型做单文件生成和文档撰写（占工作量 30%） 数据敏感场景用 DeepSeek R2 本地部署（占工作量 10%）

这样搭配，API 月费从纯用 Claude 的 💲200 降到 💲130 左右，效率反而比纯用任何一家都高。

但有个前提——你得先把 Claude Code 那套工具链建起来。没有 CLAUDE.md，没有 Skills，没有 MCP，光用 Claude 模型也不过是个贵一点的聊天框。这套体系我在前几篇文章里详细讲过，这里不重复了。

还有一个我最近在研究的方向：让 Claude Code 调用国产模型。通过 API 代理把 Kimi K2 接进 Claude Code 的工具链，让模型层面可以随时切换，但上下文工程、MCP、Skills 这些基础设施不变。相当于在一辆整车上，换装了不同的发动机。

如果这个方案跑通，可能才是国产模型 + 海外工具链的最优解。这个话题改天单独写。

⚠️ 说句公道话：国产 AI 编程工具的进化速度比我预期的快很多。一年前 Kimi 还只是个聊天机器人，现在编程能力已经能跟 Claude 扳手腕了。工具链的差距，本质上是时间差——Claude Code 跑了两年，国产工具大多不到半年。给它们时间。

✍️ 05 写在最后

这 47 天给我最大的收获不是"哪个工具更好"——而是让我看清了 AI 编程的竞争格局：

短期看模型，长期看生态。

排行榜是快照，生态是长跑。

国产大模型在编程能力上追上来了，这是事实。但 AI 编程不只是"模型写代码"这一个环节。从需求理解、上下文管理、工具调用、自主执行到质量保障，整条链路的成熟度决定了最终生产力。

我现在的工作流是：Claude Code 做主力引擎，国产模型做辅助涡轮。 两者不是竞争关系，是互补关系。就像你不会只因为一个扳手好用就扔掉整个工具箱。

不要因为排行榜上的分数就押注一方。真正的高手，永远是"用最合适的工具做最合适的事"。

下一篇，我打算写 「一人公司的 AI 工具栈」——除了编程，AI 在运营、设计、财务、客服这些环节怎么用。一个人怎么干出一个十人团队的活。如果你对这个话题感兴趣，先在评论区告诉我你最想看哪个环节。

💬 最后一道选择题

你会在生产环境用国产 AI 编程工具吗？

A. 已经在用了，体验不错
B. 准备试试，看了这篇更有方向了
C. 再等等，工具链成熟了再说
D. 不会，海外工具够用了

我选 B。国产模型做辅助已经完全可用了，但做主力还差一步——差的那步不是模型，是工具链。

qflow 开源地址：github.com/Pangu-Immortal/qflow