DeepSeek V4 Flash 好东西啊,多快好省!

0 阅读10分钟

DeepSeek 发布几天,大家都还在聚焦最强之争,所以测的一般是DeepSeek V4 Pro 版本。

Pro 我们也测试过了,确实还不错。

但是,当前测完 Flash 之后,我觉得 Flash 才是 DeepSeek的利刃啊!

主要是价格特别便宜,速度很快,能力也不错。

真的是价格屠夫!

下面我一点一点来分析,价格到底有多便宜,速度到底有多快,能力到底是什么水平?

1、价格

只要是商品,价格永远是关键因素。

因为正规渠道的 Token 还是蛮贵的,然后像编程、养龙虾这些 Token 消耗起来都是很猛的。

我们急需一个能力尚可,价格便宜的模型。

我汇总几个主流模型的价目表:

模型输入价格输出价格缓存命中上下文
DeepSeek V4 Flash120.21M
DeepSeek V4 Pro122411M
Kimi K2.66.5271.1256K
Kimi K2.54210.7256K
GLM-5.1(≥32K)8282200K
GLM-4.7(≥32K)4160.8200K

从表格可以看出来,Flash 这个价格是很香的!

1M 上下文,输入,输出,缓存命中的价格都远低于同行!

而且不是低一点点哦,是低到离谱!

Flash 输入输出价格不到 Pro 的十分之一!

相比 Kimi 和 GLM 也是非常便宜!

便宜到我都怀疑,我是不是抄错了!

我再三确认,数据应该是正确的,我都是官网抠的数据!

2、速度

价格很香,那么速度怎么样呢?

我让 GLM5-Turbo 帮我写了一个测试脚本,每个模型都测试 10 次,并做了汇总。

DeepSeek V4 Pro 和 Flash 的数据如下:

Flash 版本在所有速度指标上都大约是 Pro 的 1.6-1.8 倍,延迟仅为一半,API 状态良好。

Flash 相比 Pro 是很明显是要快很多,有几项指标都翻倍了!

作为对比,我也测了一下 GLM5.1:

GLM 5.1 的表现明显偏慢,主要问题是:

  1. 首 Token 延迟极高 — 平均 10.4 秒,波动很大(最低 0.9s,最高 22.2s),说明存在严重的排队/冷启动问题
  2. thinking tokens 为 0 — 脚本未检测到 thinking 内容,但首 Token 到首文本 Token 之间有大段空白时间被计为 "thinkingtime",导致 overall t/s 被严重拉低(7.02)
  3. 纯文本速度 22 t/s 也低于 DeepSeek 的两个模型

这可能说明 GLM 5.1 的 API 端点有较大的排队延迟。

最后我也把 Kimi K2.6 加上了:

Kimi K2.6 的情况和 GLM 5.1 类似:

  1. thinking tokens 为 0 — 未检测到 thinking 输出,但首 Token 延迟很高(平均 4.5s),存在明显的"思考但未上报"阶段
  2. 纯文本速度 28.86 t/s,介于 GLM 和 DeepSeek 之间
  3. overall t/s 只有 9.11,被隐藏的思考时间严重拖低
  4. 延迟波动大(最低 2.7s,最高 12.5s)

整体来看,DeepSeek V4 Flash 在速度上遥遥领先。

Kimi 和 GLM 都因为未正确上报 thinking tokens 导致 overall t/s 偏低。

如果只看纯文本生成速度,排名是:Flash > Pro > Kimi > GLM。

上面都是 GLM5.1 根据测试情况做的总结,我就不多说了!

我就重复一点:Flash > Pro > Kimi > GLM,Flash 在速度上翻倍级领先

3、能力

速度和价格的优势已经非常明显,不是说领先一点点,而是领先好多个点!

那么能力如何呢?这个就非常关键了!

如果能力 OK,那就是性价比神器!如果能力不行,那么说再多都没有任何意义。

能力这个维度,我会分几个部分来介绍,一个是问答,一个是前端页面设计,一个是复杂项目升级 !

先从简单的测起,做一些常规问答和智力测试。

数字母

题目:

DeepSeek 里面有几个 e?

结果:

其他模型我先不评价,Flash 是回答正确的。

这个题目正常来说,所有模型都能回答正确的。

但是你会发现有些模型答错了,只能证明一个点:要么没有启用思考模式,要么后面是降智模型。

性能指标:

Flash 在首字延迟和总耗时方面都是最短的。

比大小

题目:

11.9 和 11.12 哪个数字大?

结果:

Flash 同样是回答正常的。

性能指标:

Flash 在两个时间维度上,又是最佳表现。

找正整数

题目:

找出一个正整数 n,使得 n! 可以被 2^n 整除。

结果:

因为 Flash 第一次没有答出来,我就加测了两次。

第二次:

第三次:

从这三次结果来看,DS 可以正常回答这个问题。但是有时候思考 token 过多,导致达到请求大小的上限。

性能指标:

在能回答出来的情况下,Flash 首字第一,总耗时第二!

空间推理

题目:

6 米长的竹竿能否通过 4 米高、3 米宽的门?

结果:

这个题目也没有结果,所以加测了两次!

第二次:

第三次:

这一题对错不重要,应该大家都是乱猜的,完全是抽卡概率的问题。

但是 Flash 很容易思考过久,并且回答不一定正确。Pro 基本是可以答对的。

性能指标:

在能答出来的那一次,Flash 首字第一,总时间第三。

帽子逻辑推理

题目:

有 5 个人排成一排,每人帽子颜色为红或蓝。他们可以看到前面的人的帽子,但看不到自己的。主持人宣布:"至少有一顶红帽子。"从最后一人开始,每人依次说"是"或"否"(表示是否知道自己帽子的颜色)。如果第 5 人说"否",第 4 人说"是",求所有可能的帽子颜色分布。

结果:

这一题全部正确!Flash 自然也是正确的。

性能指标:

时间方面,Flash 首字第一,总耗时最后。

从这几个题目可以看出来,Flash 的首字延迟非常低,几乎都是第一,而且比第二名快很多。

正确率方面 80% 的样子!整体感觉和 MiniMax M2.7 有来有回,它们的激活参数都在 10B 左右!

GLM5.1 这两天的测试结果非常奇怪。

一个是很慢,另一个是简单问题都会答错。

可能默认情况下没有启用思考,或者后端分配了其它模型,表现甚至不如 Flash。

9 个前端页面

这项测试也已经持续了很久,每个页面其实都有自己的技术考点,除了实现基础之外,视觉上是否好看也是一个很重要的指标。

测试的题目包含了:

  • 赛博朋克版《清明上河图》
  • "无限流"文字冒险游戏
  • "分形烟花秀"
  • Emoji 版《泰坦尼克号》
  • 纯 CSS 中国山水画
  • 完整横版跑酷游戏
  • 诗词版黑客帝国代码雨
  • 纯前端 3D 太阳系
  • AI 五子棋对战 + 华丽 UI

这个CCS 山水画好像意境还可以,就拿这个作为本章节配图了!

我已经仔细看过它的生成结果了,这部分中规中矩,偏下一点点。

有两个例子是直接没法显示的,应该是出现了JS 错误。

其它都能正常显示,但是基本上没有太多审美可言。

但是这个测试过程中,有一个让我非常意外的点。

为了快速测试,我一次性把九个题目扔给他了,然后就出现了很壮观的一幕。

它直接开了 9 个 Agents 并行开发:

中途又把 Agent 干到了 16 个。

最后它只用了 12 分钟,做完了 9 个例子。

相比之前用 Pro 测试一个例子都要 16 分钟,这并行能力效率高到飞起!

需要注意的是,在管理这些子代理的时候,可能遇到了一些问题。

因为正常是 9 个例子,它却开了 16 个代理,其中有大量重复的任务。

更加好玩的是,它批量生成的页面代码全是可以正常运行的,并无明显的错误。

反而是分开测试的,错误不少。

所以,可能是一次性做会更好,也可能只是抽卡的偶然性!

当然,我也进行了单独的测试,速度明显比 Pro 快很多,提速 50~70% 应该是有的!

角色群聊功能升级

这一环节,是让我比较惊讶的,也是我写这篇文章的核心原因!

测试背景: 基于 CodingPlan 项目(约 8,000 行代码),进行功能升级,从平台群聊,升级到基于角色的群聊。

测试特点:

  • 有一定上下文基础(约 8,000 行代码)
  • 涉及数据结构修改和老数据升级
  • 涉及业务逻辑修改
  • 涉及多个功能页面联动修改

Flash 极速完成了这个任务,下面来看一下结果。

首先,编译正常,启动正常,点击所有功能点,都没有出现报错的情况。

这个基础能力是过关的。

然后来看具体的功能。

角色管理部分:

这部分功能设计并不是太好,它没有把头像,平台,模型等信息显示在这个列表中,非常不直观。

但是它功能是正常的,在添加和编辑页面都可以正常显示和编辑头像和平台信息。

然后看一下群聊创建功能:

这一部分做得很好,已经添加了角色选项,并且和平台选项做了区分,并且可以看到我们设置好的几个角色了。也可以成功创建会话。

核心功能群聊界面:

这部分让人惊讶,居然全对,没有任何问题。

功能正常,头像显示正确。

这个环节很多选手都会在头像和名称上踩坑。比如上次测试 Pro 的时候,就是对话中头像显示有问题。

这个例子表现出乎意料的好。这可是我手上最有挑战性的例子的呀。几个月前,好多模型都是错漏百出。

最牛逼的点是,它只用了 9 分钟 45 秒。

从上面可以看到,10 分钟不到,它就已经开始安装运行环境了。到这里基本就是代码写得差不多了,要开始跑起来了。

加上安装环境和验证的时间,总共也才 15 分钟。

这个效率简直高到爆炸! 之前还没有人做到过,又快又准。

说实话,看到这个例子我有点难以置信。因为这个例子确实有点难度的,光靠抽卡的运气是做不到这个效果的,可能它就是比较擅长这种包含业务逻辑的代码。

价格、速度、能力能谈完了! 你们觉得怎么样?

考虑到价格极低,速度极快,项目实战能力强。

不可能的三角,达到了微妙的平衡。

我觉得 Flash 才是 DeepSeek V4 的利刃,没有人可以拒绝性价比。

Pro 老哥负责秀肌肉,Flash 老弟负责多快好省地干活。

我关于 DeepSeek V4 的第一篇文章主题叫《天下苦 Token 久矣,DeepSeek V4 终于来了!》

看来,Flash 的便宜 Tokens 还是很不错的!