最近在库拉c.kulaai.cn上做了一轮大模型横评,正巧撞上这周三件事同时爆发:GPT-6"Spud"正式发布、Claude Opus 4.6降智争议持续发酵、Google Gemma 4全系开源。信息量太大,索性写一篇选型复盘,从实际项目角度聊聊这三家各自的长板和坑。
先说结论:2026年别再押单一家了
去年我的项目all in Claude,结果2月份Opus 4.6一更新,直接从"高级专家"变成"需要反复监督的实习生"。这个教训让我彻底改变了选型思路——不是选"最好"的模型,而是选"最合适"的组合。
下面按场景逐个拆。
代码生成:GPT-6当前最强,但成本要盯紧
4月14号发布的GPT-6,研发周期近两年。我拿实际项目里的多文件重构需求做了一轮benchmark:128K上下文下的注意力衰减比5.2改善明显,复杂算法设计的一次通过率也高了不少。
实测数据大概是这样:同一个代码重构任务,GPT-5.2需要3轮对话收敛,GPT-6一轮半就搞定了,输出代码的可运行率从70%提升到90%左右。这个差距在实际项目中是很可观的。
坑在于token消耗。同样的任务,GPT-6的token用量大约是5.2的1.5倍。如果业务调用量大,月度成本要重新算。另外它对模糊需求的"脑补"倾向更强,经常往代码里塞你没要的功能,prompt写得不够精确反而容易翻车。
文档和方案设计:Claude上限最高,但稳定性是硬伤
Anthropic这段时间的操作真的让人看不懂。Opus 4.6更新后,社区实测数据显示思考token从2200被压缩到600,复杂任务的输出质量断崖式下降。有工程师拿六千多条调用日志做了量化对比,"降智"不是主观感受,是可度量的性能衰退。
Claude Mythos紧接着发布,号称刷新所有榜单,但Demo效果又被质疑注水。整个事件的核心矛盾是:Anthropic把安全和成本控制的权重调太高,用户体验直接买单。
不过在特定场景下Claude仍然是最优解。我测过让它写RFC和架构设计方案,输出的逻辑链条和格式规范度比另外两家都干净。问题在于你不知道下次调用它给你的到底是专家模式还是实习生模式。
多模态和成本控制:Google的生态打法
Google今年的策略很明确,不跟OpenAI卷旗舰参数,用开源和生态抢开发者心智。4月11号发布的Gemma 4系列,四个版本全部开源可商用,Apache 2.0协议。31B那个版本在部分benchmark上逼近GPT-5-high的水平,手机端都能部署。
Gemini 3 Pro在多模态理解上依然是领先水平,图文混合理解、视频摘要这些场景能力矩阵最完整。纯文本推理和代码生成跟GPT-6有差距,但在缩小。
我的组合方案
经过这轮横评,我目前的选型策略是:
- 代码和复杂推理:GPT-6,输出质量最高但盯紧token消耗
- 文档、方案设计:Claude挑着用,发挥它结构化强的长板
- 多模态场景:Gemini,非结构化数据处理它的能力最完整
- 成本控制和本地部署:Gemma 4,几乎零边际成本
核心逻辑是:每家都有能力边界,组合使用反而能在成本、质量和稳定性之间找到最优解。
几个容易忽略的变量
API稳定性是今年最容易翻车的地方。GPT-6发布当天就碰到限流,Claude一个月内频繁改服务条款,Gemini高并发下偶尔延迟。模型能力再强,调不通就是零。选型的时候SLA指标必须进评估表。
合规性也要提前想清楚。今年有厂商对第三方接入方式做了限制,如果你的项目依赖特定接入链路,务必提前确认,做到一半被封的代价很大。
趋势判断
2026年大模型行业的关键词已经从"谁更强"变成"谁更稳、更便宜、更好集成"。GPT-6能力顶级但定价和限流是瓶颈,Claude学术能力一流但稳定性堪忧,Google用开源在抢长期生态位。
对开发者来说,最实际的建议就一条:别被营销节奏带跑,用自己的真实场景去测,拿跑出来的数据说话。多备几个方案,保持灵活切换的能力。