DeepSeek 发布几天,大家都还在聚焦最强之争,所以测的一般是DeepSeek V4 Pro 版本。
Pro 我们也测试过了,确实还不错。
但是,当前测完 Flash 之后,我觉得 Flash 才是 DeepSeek的利刃啊!
主要是价格特别便宜,速度很快,能力也不错。
真的是价格屠夫!
下面我一点一点来分析,价格到底有多便宜,速度到底有多快,能力到底是什么水平?
1、价格
只要是商品,价格永远是关键因素。
因为正规渠道的 Token 还是蛮贵的,然后像编程、养龙虾这些 Token 消耗起来都是很猛的。
我们急需一个能力尚可,价格便宜的模型。
我汇总几个主流模型的价目表:
| 模型 | 输入价格 | 输出价格 | 缓存命中 | 上下文 |
|---|---|---|---|---|
| DeepSeek V4 Flash | 1 | 2 | 0.2 | 1M |
| DeepSeek V4 Pro | 12 | 24 | 1 | 1M |
| Kimi K2.6 | 6.5 | 27 | 1.1 | 256K |
| Kimi K2.5 | 4 | 21 | 0.7 | 256K |
| GLM-5.1(≥32K) | 8 | 28 | 2 | 200K |
| GLM-4.7(≥32K) | 4 | 16 | 0.8 | 200K |
从表格可以看出来,Flash 这个价格是很香的!
1M 上下文,输入,输出,缓存命中的价格都远低于同行!
而且不是低一点点哦,是低到离谱!
Flash 输入输出价格不到 Pro 的十分之一!
相比 Kimi 和 GLM 也是非常便宜!
便宜到我都怀疑,我是不是抄错了!
我再三确认,数据应该是正确的,我都是官网抠的数据!
2、速度
价格很香,那么速度怎么样呢?
我让 GLM5-Turbo 帮我写了一个测试脚本,每个模型都测试 10 次,并做了汇总。
DeepSeek V4 Pro 和 Flash 的数据如下:
Flash 版本在所有速度指标上都大约是 Pro 的 1.6-1.8 倍,延迟仅为一半,API 状态良好。
Flash 相比 Pro 是很明显是要快很多,有几项指标都翻倍了!
作为对比,我也测了一下 GLM5.1:
GLM 5.1 的表现明显偏慢,主要问题是:
- 首 Token 延迟极高 — 平均 10.4 秒,波动很大(最低 0.9s,最高 22.2s),说明存在严重的排队/冷启动问题
- thinking tokens 为 0 — 脚本未检测到 thinking 内容,但首 Token 到首文本 Token 之间有大段空白时间被计为 "thinkingtime",导致 overall t/s 被严重拉低(7.02)
- 纯文本速度 22 t/s 也低于 DeepSeek 的两个模型
这可能说明 GLM 5.1 的 API 端点有较大的排队延迟。
最后我也把 Kimi K2.6 加上了:
Kimi K2.6 的情况和 GLM 5.1 类似:
- thinking tokens 为 0 — 未检测到 thinking 输出,但首 Token 延迟很高(平均 4.5s),存在明显的"思考但未上报"阶段
- 纯文本速度 28.86 t/s,介于 GLM 和 DeepSeek 之间
- overall t/s 只有 9.11,被隐藏的思考时间严重拖低
- 延迟波动大(最低 2.7s,最高 12.5s)
整体来看,DeepSeek V4 Flash 在速度上遥遥领先。
Kimi 和 GLM 都因为未正确上报 thinking tokens 导致 overall t/s 偏低。
如果只看纯文本生成速度,排名是:Flash > Pro > Kimi > GLM。
上面都是 GLM5.1 根据测试情况做的总结,我就不多说了!
我就重复一点:Flash > Pro > Kimi > GLM,Flash 在速度上翻倍级领先 。
3、能力
速度和价格的优势已经非常明显,不是说领先一点点,而是领先好多个点!
那么能力如何呢?这个就非常关键了!
如果能力 OK,那就是性价比神器!如果能力不行,那么说再多都没有任何意义。
能力这个维度,我会分几个部分来介绍,一个是问答,一个是前端页面设计,一个是复杂项目升级 !
先从简单的测起,做一些常规问答和智力测试。
数字母
题目:
DeepSeek 里面有几个 e?
结果:
其他模型我先不评价,Flash 是回答正确的。
这个题目正常来说,所有模型都能回答正确的。
但是你会发现有些模型答错了,只能证明一个点:要么没有启用思考模式,要么后面是降智模型。
性能指标:
Flash 在首字延迟和总耗时方面都是最短的。
比大小
题目:
11.9 和 11.12 哪个数字大?
结果:
Flash 同样是回答正常的。
性能指标:
Flash 在两个时间维度上,又是最佳表现。
找正整数
题目:
找出一个正整数 n,使得 n! 可以被 2^n 整除。
结果:
因为 Flash 第一次没有答出来,我就加测了两次。
第二次:
第三次:
从这三次结果来看,DS 可以正常回答这个问题。但是有时候思考 token 过多,导致达到请求大小的上限。
性能指标:
在能回答出来的情况下,Flash 首字第一,总耗时第二!
空间推理
题目:
6 米长的竹竿能否通过 4 米高、3 米宽的门?
结果:
这个题目也没有结果,所以加测了两次!
第二次:
第三次:
这一题对错不重要,应该大家都是乱猜的,完全是抽卡概率的问题。
但是 Flash 很容易思考过久,并且回答不一定正确。Pro 基本是可以答对的。
性能指标:
在能答出来的那一次,Flash 首字第一,总时间第三。
帽子逻辑推理
题目:
有 5 个人排成一排,每人帽子颜色为红或蓝。他们可以看到前面的人的帽子,但看不到自己的。主持人宣布:"至少有一顶红帽子。"从最后一人开始,每人依次说"是"或"否"(表示是否知道自己帽子的颜色)。如果第 5 人说"否",第 4 人说"是",求所有可能的帽子颜色分布。
结果:
这一题全部正确!Flash 自然也是正确的。
性能指标:
时间方面,Flash 首字第一,总耗时最后。
从这几个题目可以看出来,Flash 的首字延迟非常低,几乎都是第一,而且比第二名快很多。
正确率方面 80% 的样子!整体感觉和 MiniMax M2.7 有来有回,它们的激活参数都在 10B 左右!
GLM5.1 这两天的测试结果非常奇怪。
一个是很慢,另一个是简单问题都会答错。
可能默认情况下没有启用思考,或者后端分配了其它模型,表现甚至不如 Flash。
9 个前端页面
这项测试也已经持续了很久,每个页面其实都有自己的技术考点,除了实现基础之外,视觉上是否好看也是一个很重要的指标。
测试的题目包含了:
- 赛博朋克版《清明上河图》
- "无限流"文字冒险游戏
- "分形烟花秀"
- Emoji 版《泰坦尼克号》
- 纯 CSS 中国山水画
- 完整横版跑酷游戏
- 诗词版黑客帝国代码雨
- 纯前端 3D 太阳系
- AI 五子棋对战 + 华丽 UI
这个CCS 山水画好像意境还可以,就拿这个作为本章节配图了!
我已经仔细看过它的生成结果了,这部分中规中矩,偏下一点点。
有两个例子是直接没法显示的,应该是出现了JS 错误。
其它都能正常显示,但是基本上没有太多审美可言。
但是这个测试过程中,有一个让我非常意外的点。
为了快速测试,我一次性把九个题目扔给他了,然后就出现了很壮观的一幕。
它直接开了 9 个 Agents 并行开发:
中途又把 Agent 干到了 16 个。
最后它只用了 12 分钟,做完了 9 个例子。
相比之前用 Pro 测试一个例子都要 16 分钟,这并行能力效率高到飞起!
需要注意的是,在管理这些子代理的时候,可能遇到了一些问题。
因为正常是 9 个例子,它却开了 16 个代理,其中有大量重复的任务。
更加好玩的是,它批量生成的页面代码全是可以正常运行的,并无明显的错误。
反而是分开测试的,错误不少。
所以,可能是一次性做会更好,也可能只是抽卡的偶然性!
当然,我也进行了单独的测试,速度明显比 Pro 快很多,提速 50~70% 应该是有的!
角色群聊功能升级
这一环节,是让我比较惊讶的,也是我写这篇文章的核心原因!
测试背景: 基于 CodingPlan 项目(约 8,000 行代码),进行功能升级,从平台群聊,升级到基于角色的群聊。
测试特点:
- 有一定上下文基础(约 8,000 行代码)
- 涉及数据结构修改和老数据升级
- 涉及业务逻辑修改
- 涉及多个功能页面联动修改
Flash 极速完成了这个任务,下面来看一下结果。
首先,编译正常,启动正常,点击所有功能点,都没有出现报错的情况。
这个基础能力是过关的。
然后来看具体的功能。
角色管理部分:
这部分功能设计并不是太好,它没有把头像,平台,模型等信息显示在这个列表中,非常不直观。
但是它功能是正常的,在添加和编辑页面都可以正常显示和编辑头像和平台信息。
然后看一下群聊创建功能:
这一部分做得很好,已经添加了角色选项,并且和平台选项做了区分,并且可以看到我们设置好的几个角色了。也可以成功创建会话。
核心功能群聊界面:
这部分让人惊讶,居然全对,没有任何问题。
功能正常,头像显示正确。
这个环节很多选手都会在头像和名称上踩坑。比如上次测试 Pro 的时候,就是对话中头像显示有问题。
这个例子表现出乎意料的好。这可是我手上最有挑战性的例子的呀。几个月前,好多模型都是错漏百出。
最牛逼的点是,它只用了 9 分钟 45 秒。
从上面可以看到,10 分钟不到,它就已经开始安装运行环境了。到这里基本就是代码写得差不多了,要开始跑起来了。
加上安装环境和验证的时间,总共也才 15 分钟。
这个效率简直高到爆炸! 之前还没有人做到过,又快又准。
说实话,看到这个例子我有点难以置信。因为这个例子确实有点难度的,光靠抽卡的运气是做不到这个效果的,可能它就是比较擅长这种包含业务逻辑的代码。
价格、速度、能力能谈完了! 你们觉得怎么样?
考虑到价格极低,速度极快,项目实战能力强。
不可能的三角,达到了微妙的平衡。
我觉得 Flash 才是 DeepSeek V4 的利刃,没有人可以拒绝性价比。
Pro 老哥负责秀肌肉,Flash 老弟负责多快好省地干活。
我关于 DeepSeek V4 的第一篇文章主题叫《天下苦 Token 久矣,DeepSeek V4 终于来了!》
看来,Flash 的便宜 Tokens 还是很不错的!