挑战时间
2026年05月05日
随着 deepseek-v4 的发布, 国产模型又迎来了一波新的热潮. 恰好最近一个在东京准备面试的姐妹让我帮忙按照目标岗位的 jd 准备一个项目让他熟悉一下, 于是正好拿来做一期 AI 斗蛐蛐.
由于现在 AI 的费用处于快速变化期, 我相信很多人都会迷失在"我到底应该选择哪个 plan"的困惑中. 所以本期挑战不会过于严格考察最终代码的质量(不是说质量不重要, 而是刚开始几轮做出来的初稿, 就算有一些问题, 只要不是特别严重的那种, 都不会扣太多分), 比如无限滚动是否用了虚拟列表, 是否做了错误处理等技术细节, 而是会额外考虑消耗时间和消耗 token (会结合价格, 而不单是 token 数量).
如果没有耐心, 可以直接跳到最后看总结和订阅建议.
Again, 本次挑战结果仅供参考, 方差极大, 评分标准也不严格.
参赛选手:
- glm-5.1 (Claude Code)
- gpt-5.4 (Codex)
- deepseek-v4-pro (Claude Code)
- claude-opus-4-7 (Claude Code)
挑战内容
姐妹希望做一个社交平台, 支持最基本的发帖+评论. 所以 prompt 如下:
这是一个空目录, 现在需要你写一个社交平台网站, 功能包含:
1. 注册+登录
2. 首页是个 feed
3. 用户可以发帖
4. 用户可以评论别人的帖子
使用 next.js 全栈, db使用sqlite
先做plan, 有不懂的问我
前端你自己看着办就好, 保持最基本的优美就可以. 使用 tailwindcss + shadcn + biome
其实是我在准备面试, 这是具体jd:
### 使用技術
- プログラミング言語
以下のどれかを使う
1. Next.js、サーバーサイドはAPI Routes + tRPC (Hono、~~Nest.js~~でも良さそう)
2. React + Laravel
- JavaScriptでなく、TypeScriptで書く
- DBはMySQL or PostgreSQL
- 状態管理ライブラリはzustand
- formatter, linterは、biomeを利用
- 可能であれば、cursorエディタを利用
- ORMでのDB操作
- Next.jsの場合は、Prisma
- Laravel利用の場合は、Eloquent ORM
- フォームは、react-hook-formとzodでバリデーションを実装
- CSSフレームワークは、shadcn, Tailwindを利用
你看看哪些是我们能用的
需要支持发帖多图上传(最大9张), 评论区带图评论(最大9张), 个人主页,
显示自己发过的帖子和发过的评论, 以及修改头像. 修改头像需要在前端框选大小.
需要支持多语言, 并且写入 db 里, ssr 的时候需要用 db 里的用户语言去渲染 html
评分维度
本轮评分的核心逻辑: 一轮对话不可能产出完美产品, 所有 AI 的初稿都有瑕疵, 但这些瑕疵通过后续几轮对话基本都能修复, 因此本轮更关注"迭代成本"而非"初稿完美度". 项目质量评分的是初稿的完成度, 时间得分和 token 得分反映的是后续迭代的成本效率.
- 项目质量 - 前端是否美观, 基本功能是否完成, i18n (50%)
- 消耗时间 (20%)
- 消耗 token (30%)
我本来以为这种样板 demo 对于 AI 来说应该 0 难度秒杀, 但是没想到结果有点令人意外, 几乎所有 AI 初稿的完成度都没有达到我的预期.
1. glm-5.1 (Claude Code)
项目质量
整体来说并没有达到我的预期. 前端方面过于朴素了, 可能是因为 shadcn 本身就一股冷淡风格的原因, 测试的几乎所有 AI 都是一样的画风. 不过 glm-5.1 我尝试让他优化了一下前端, 但结果依然太朴素了.
主页:

详情页:

亮点:
- glm-5.1 是唯一一个支持了针对单条评论做回复的 AI, 这点值得表扬.
- glm-5.1 也是唯一一个用了最新版 prisma 7 的 AI. claude 直接用的 6, 而 gpt 和 ds 都在使用 7 的过程中遇到了问题, 转头 fallback 到使用 5.
缺点:
-
页面过于朴素了.
-
i18n: glm 在这一步翻大车了, 一直处理不好, 后续几乎所有的对话都是在让他解决这个问题. 看上去的原因是因为我让他用 zustand, 然后他把 locale 信息存在了这里面, 由于各种各样的问题导致 ssr 渲染结果始终是默认的一个固定的语言, 然后前端用正确的 locale 再渲染, 页面就会闪一下, 体验很差.
项目质量得分: 6
消耗时间
~50分钟
消耗时间得分: 5
消耗 token
~28M (Pro 订阅周限额的 ~10%)
消耗 token 得分: 4
综合得分
5.2
2. gpt-5.4 (Codex)
项目质量
唯一真神登场. 打开页面的那一刻眼前一亮, 和朴素的 glm 结果完全不同, 画风强了很多.
主页:

详情页:

亮点:
- gpt-5.4 是唯一一个前端做得很用心的, 在桌面端打开页面填充得比较满. 其余几个 AI 做出来的都像移动端, 只有中间一块区域有内容. 并且选择了橙色作为主题色, 而不是默认 shadcn 的冷淡黑白色调.
- seed db 用的数据质量挺不错的, 有一种真实感.
- 个人主页的设置里, 除了昵称, 还支持了个人简介.
- i18n 没有出问题.
缺点:
- 在页面里到处都在强调"这是一个用于准备面试的项目". 当然这一点无伤大雅, 一轮对话就可以让他改正.
项目质量得分: 8
消耗时间
37分钟
消耗时间得分: 7
消耗 token
~9.7M (Plus 订阅周限额的 ~6%)
消耗 token 得分: 8
综合得分
7.8
3. deepseek-v4-pro (Claude Code)
项目质量
和 glm 一样的问题, 前端太朴素了. 核心功能基本完成, 但是使用起来总感觉怪怪的, 感觉有地方不对劲.
主页 (ds 没有设计详情页)

亮点:
- 无, 中规中矩.
缺点:
- ssr 首屏没有登录态, 会闪烁
- 小 bug 很多
- 个人主页没有做主态客态, 每个人都可以看到其他人的帖子, 并且文案是"我的帖子"
- locale 放在了 url 里当做 path param, 很丑陋
项目质量得分: 4
消耗时间
42分钟
消耗时间得分: 6
消耗 token
这个领域 ds 没的说, 绝对王者.
~13.5M (1.11 CNY)
消耗 token 得分: 10
综合得分
6.2
4. claude-opus-4-7 (Claude Code)
本次挑战倒数第一登场. 其实从 opus 4.7 一发布, 我用着就感觉很奇怪, 画风完全不一样了, 一点也不像 claude, 反而一股 gpt 的人机味. 在本次挑战里也是结果最差的.
主页:

详情页:

亮点: 真没看到
缺点:
- 比国产两家前端做得还要朴素
- 英文字体莫名其妙, 过于丑陋
- locale 放在了 url 里当做 path param, 很丑陋
- 即使设置了头像, 在首页右上角依然显示的默认昵称头像, 而不是用户上传的头像
- 个人主页没有做主态客态, 每个人都可以看到其他人的帖子
项目质量得分: 3
消耗时间
~21分钟
消耗时间得分: 10
消耗 token
这个领域 claude 也没的说, 价格遥遥领先.
~11M (9 USD)
消耗 token 得分: 5
综合得分
5
排名
| 模型 | 项目质量 (50%) | 消耗时间 (20%) | 消耗 Token (30%) | 综合评分 |
|---|---|---|---|---|
| gpt-5.4 (Codex) | 8 | 7 | 8 | 7.8 |
| deepseek-v4-pro | 4 | 6 | 10 | 6.2 |
| glm-5.1 | 6 | 5 | 4 | 5.2 |
| claude-opus-4-7 | 3 | 10 | 5 | 5.0 |
总结
挑战结果
- gpt-5.4 在全方面都表现优异, 特别是前端美观度和 i18n 实现, 并且在兼顾质量的同时 token 消耗也不错, 是本次挑战的唯一真神.
- deepseek-v4-pro 在成本方面做到了极致, 性价比极高, 但初版输出质量一般.
- glm-5.1 在 i18n 上翻车, 页面闪烁问题严重影响了体验, 并且 token 消耗速度有点太快了.
- claude-opus-4-7 本次表现最差, 质量最差的同时费用最高.
订阅建议(仅供参考)
在2026年, 一般来说正常的公司都会提供 AI Coding 工具, 用于工作. 所以这里只讨论个人订阅的场景 (做个人项目, 做副业, 纯娱乐等用途).
综合来说, 对于成本敏感型用户(比如我), 最佳的选择还得是订阅多个模型的基础款, 然后根据需求切换来使用.
- gpt plus: 基本可以说必备了.质量非常高的同时, 量也比较大(当然前提是不碰 gpt-5.5, 这个相比 5.4 价格翻倍了).
- glm: 不建议订阅. glm-5.1 模型本身倒是没啥问题, 但是 pro 的消耗速度还是有点快. 我还是在限时折扣的非高峰期 1x 速率. 有一天在高峰期的 3x 时间段试了一下, 消耗速度和流水一样, 基本按一下刷新就能跳出好几个百分比. 想象一下如果6月后折扣结束, 恢复到高峰期 3x, 非高峰期 2x, 那么基本可以理解为 glm-5.1 是不可用的状态, 可能和 claude code 的 pro 用量差不多. 当然这还是在没考虑 429 的情况下.
- deepseek: ds v4 pro 的 2.5 折到5月底结束, 不知道后面是什么价格. 梁文锋说等后面昇腾批量上市后 pro 价格会大幅下降, 如果能维持现有的 2.5 折的水平, 那么作为主力模型的副手绝对是最佳人选.
- claude: 考虑到 anthropic 毫无道德下限和各种出格操作, 一般情况下完全不推荐个人订阅, 除非有稳定纯净的 IP + 干净的支付渠道 + 非 claude 不用的理由. 就算对国产过敏, 在这个时间点我也想不到 claude 相比 gpt 有什么优势.
几个比较好的搭配选择:
- 预算相对充足: 直接 gpt pro 100$
- 预算没有那么高, 如果 deepseek v4 pro 后续稳定的价格和现在持平或者更低: gpt plus + deepseek
- 否则: gpt plus + glm(或者 kimi)
杂谈
在过去一段时间, 当我们讨论模型时, 总是会下意识觉得 claude 是唯一真神, 或者 gpt 反超了 claude 成最强模型, 并且对国产模型嗤之以鼻. 但是 anthropic 对国内的态度大家都知道. 就算抛开这点不谈, 或者说你和 anthropic 的立场是一致的, 它的态度和做法对你来说是优点, 你高兴地认为"这下不得不用了", 那么从纯可行性的角度分析, 使用 claude 的成本也在逐步上升. 如果有一天这个成本高到了确实用不了 claude, 我们是不是就得被迫停止生产了? 这显然不合理. 所以从生产力的角度来考虑, 我们也绝对不能绑死在一家厂商身上, 百花齐放才是最符合消费者利益的情况.