文章导读:
“Flash”往往被视作大模型的轻量妥协版,但阶跃星辰最新发布的 1980 亿参数 MoE 模型 Step-3.7-Flash,却试图打破这一刻板印象。凭借最高 400 Tokens/s 的极速输出、原生多模态与 Agent 能力,它究竟是只停留在纸面参数,还是真有两把刷子?综合实测显示:模型或许未达顶级 Pro 的智商上限,却在速度、稳定性与性价比上卷到极致。对于急需高频调用 Agent、快速迭代代码的开发者而言,可作为真正的生产力利器。
全文约 3500 字
5 月 29 日,阶跃星辰正式发布了新一代开源推理模型 Step-3.7-Flash。每当看到“Flash”这个后缀,用户自然会联想到“低价版、轻量版、适合简单任务”——但就像前不久才发布的Gemini 3.5 Flash,Step-3.7-Flash 也希望打破这种刻板印象。
Step-3.7-Flash 模型直接堆到了 1980 亿参数的稀疏混合专家(MoE)架构。更关键的是,这是一款具备原生视觉理解能力的多模态模型,看图、读表、分析界面截图对它来说都是基本功。
我们对其核心亮点进行总结:
1. 真正 Flash 级别的极致输出速度。 Step-3.7-Flash 直接将输出速度拉到了 最高 400 Tokens/s(TPS)。这意味着什么?以前你泡杯咖啡的时间它可能还在思考,现在眨眼之间就能吐出一篇长文或上百行代码。对于需要高频调用、实时交互的生产级场景来说,这种“读完一句话,模型已经写完一段”的极速体验,本身就是生产力的质变。
2. Agent 能力不再是 Pro 模型的专利。 以前的Flash模型大多只能做点简单问答,但 Step-3.7-Flash被官方赋予了“Pro 级别 Agent 能力”。无论是工具调用,还是主流框架兼容(如 Claude Code、KiloCode、Hermes Agent、OpenClaw),它都能理解复杂指令,自主拆解任务,调用工具完成多步骤闭环。
3. 视觉与推理的深度融合。 得益于其多模态架构,Step-3.7-Flash 不仅能处理纯文本,更能将图像、图表、UI 截图中的视觉信息与文本逻辑进行联合推理。这对于需要处理网页、文档、设计稿的开发者来说,意味着模型能看懂的不再只是文字,而是整个世界。
4. 把性价比卷到了极致。 依托 1980 亿参数 MoE 架构的稀疏激活特性,模型在保持接近顶级模型智商的同时,将调用成本牢牢锁死在 Flash 级别。对于需要高频调用、大规模部署的企业和开发者而言,这意味着直接的降本增效。
而从今天开始,Stepfun 阶跃星辰联合 302.AI 推出 30 天限免使用的优惠活动,无需预充,注册即用,实打实的免费体验:
那么,这款对标 Pro 级功能体验的国产开源大模型,到底是真有两把刷子,还是只是纸面参数?今天,302.AI 就来实测 Step-3.7-Flash,从代码生成到逻辑推理,从纯文本到多模态视觉任务,逐一验货。
I. 实测模型基础信息
(1)测评目的:
本评测侧重模型对逻辑,数学,编程,多模态,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。
(2)测评方法:
本次测评使用302.AI收录的题库进行独立测试。模型分别就逻辑与数学(共10题),人类直觉(共7题),多模态(共20题)以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。
题库地址:docs.google.com/spreadsheet…
💡记分规则:
按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。
(3)测评工具:
-
所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
-
编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒
编程案例分数评级:
⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。
⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。
⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。
⭐⭐及以下 C级(不合格): 不可用,存在明显问题。
III. 案例展示
案例 1:多模态推理
提示词: 解图中几何题 As shown in the figure, in the ⊙O with a radius of 2.0, C is a point on the extended line of the diameter AB, CD is tangent to the circle at point D. Connect AD, given that ∠DAC = 30.0, the length of the line segment CD is ()
Choices:
(A) 1
(B) √{3}
(C) 2
(D) 2√{3}
正确答案:D
此处需要加以说明: **Step 3.7 Flash模型提供三挡推理强度,无法关闭。***
以下展示使用 low 强度,包含推理过程,答案正确,总计耗时约 9 秒
附 Gemini 3.1 Flash Lite 输出,该模型不展示思考推理过程,耗时约 6 秒
案例 2:Tool Use
提示词:给我一份广州明日穿衣建议
查询结果准确,耗时 24s
案例 3:程序化 SVG 图形生成
提示词:绘制一幅鹈鹕骑自行车的动态svg
输出质量未达标,出现多处图形组合位置错乱
案例 4:SaaS 落地页
Create a modern, fully responsive SaaS landing page using HTML5 and Tailwind CSS (via CDN).
The page should feel like a premium productivity app brand website, with a clean, minimal, and slightly futuristic aesthetic.
You may simplify implementation details where needed, but the overall visual design quality must remain high.
General Setup
Use HTML5 + Tailwind CSS CDN only.
Use Inter font from Google Fonts.
Use FontAwesome for icons (social + UI icons).
The page must be fully responsive (mobile → desktop).
Smooth hover transitions and subtle animations are encouraged but not strictly required to be perfectly staggered.
1. Hero / CTA Section
A clean, centered hero section that introduces the product.
Include:
Headline:
"Take control of your productivity today."
Large, bold, responsive typography.
Subtext:
"Stay organized, focused, and on top of your tasks with Tenlas."
Muted color, readable, supportive tone.
Primary CTA Button:
Text: "Download now"
Optional:
Subtle background gradient or soft noise texture feel
2. Features Section
Add a simple grid of 3–6 feature cards.
Each feature should include:
Icon (FontAwesome or simple visual symbol)
Title
Short description
Suggested themes:
Task management
Focus mode
Smart reminders
Productivity analytics
Cross-device sync
Keep design clean and evenly spaced.
3. Social Proof / Highlight Section (Optional but recommended)
Add a simple section that can include:
A short testimonial block OR
A statistic highlight (e.g. "10,000+ users improving productivity daily")
Keep it minimal and visually calm.
4. Footer Section
Left Column:
Brand name: Tenlas
Tagline: "Unlock your productivity potential."
Social icons (Instagram, Facebook, Dribbble/Globe, X/Twitter)
Social icons should be simple, clean, and interactive with hover effects.
Right Column:
A grid of navigation links:
Column 1: Home, Features, About, Contact
Column 2: Pricing, Blog, Updates, FAQ
Column 3: Terms, Privacy, Licensing, Changelog
Column 4: Resources, Support, Careers
5. Bottom Brand Statement
At the very bottom of the page, include a large “Tenlas” brand wordmark.
This should feel like a visual anchor of the page.
You may implement it using:
Large typography OR
SVG text scaling (preferred if possible)
It should span the width of the content container and feel bold but elegant.
Animation & Interaction (Lightweight)
Use subtle fade-up or opacity transitions for sections (optional).
Hover effects on buttons and links should be smooth.
Keep animations minimal and elegant (no heavy motion design required).
Responsiveness
Mobile-first layout
Stack columns vertically on small screens
Expand into multi-column layout on larger screens
Ensure readable spacing and typography at all sizes
Output Requirement
Output ONLY a single complete HTML file
No explanations
No markdown code fences
Must be ready to run directly in browser
Step 3.7 Flash 第一次输出,耗时约 1 分钟
具备较完整的页面结构和简单交互,配色依旧是经典 AI 紫
在原提示词基础上加入配色和更多动效要求,Step 3.7 Flash 第二次输出如下,耗时 1 分 37 秒
虽然交付物未达到完全可用程度,但页面整体视觉效果和品牌风格明显提升
IV. Step 3.7 Flash 模型实测结论
先说结论,一圈实测下来,Step 3.7 Flash 最突出的地方无疑就是速度和效率。
从几何题 10 秒内给出完整推理过程以及正确答案、天气查询 20 多秒完成,到复杂 SaaS 落地页仅用 1 分半钟就提升了一个视觉高度,整个体验最直观的变化不是输出的内容有多硬核,而是等待时间被压得非常低。你基本不会再有那种看模型慢慢思考的空档感,它更像是你刚抛出任务,下一步就已经开始输出结果了。
1. 核心优势:性价比 + 效率
Step 3.7 Flash 的突出性能表现并不在于把复杂问题做到更高上限,而在于把很多原本浪费在流程里的时间砍掉了。
在 Agent 任务里,时间 消耗 通常来自三件事:等待生成、多轮修正、工具调用之间的空转。而 Step 3.7 Flash 的优化方向很明确,尽量减少这些无效停顿。 因此用户在使用过程中会明显感觉到,模型不是在一步一步慢慢尝试,而是倾向于一次给完整结果 + 后续微调的模式。这也解释了为什么它在工具调用、代码生成、UI 产出这些任务里显得特别顺手,因为模型更像是在加速完工进程,而非陷入反复斟酌。
价格和速度叠加之后,Step 3.7 Flash 带来的变化更偏工程层面。高性价比和高输出速度的组合效果就是:你可以不太心疼 token 去跑 Agent 任务了。这点对开发者和团队其实很现实——很多 Agent 方案不是做不出来,而是调用成本太高。而 Flash 这类模型的意义就在于把实验成本拉低,开发者可以多次尝试、多次迭代。 同时支持在 Claude Code 这类生态接入,属于拿来就能用的类型,适合做自动化脚本、原型验证、多轮任务编排、批量生成类工作流。
2. Agent 能力:稳定性 > 精细度
从实际执行表现来看,模型对不同使用形态的适配度比较高,无论是单轮生成任务,还是带有工具链的多步流程,都能保持相对稳定的执行节奏。在多轮任务里,模型不会刻意去追求每一步都做到最优解,而是更偏向先把流程跑完。整体表现是任务链条比较稳,工具调用也不容易乱序,中间不会出现明显的发散或卡住。
在长链路 Agent 场景里,这种特性其实比单步精度更重要,因为在真实任务中,最常见问题并不是输出结果偏差,而是任务执行到一半断掉、或者上下文跑偏导致整个流程重来。
3. 不足之处:上限未达 Pro 级
相较于优势来说,Step 3.7 Flash 的短板也很明显。在 SaaS 页面这种案例里可以明显看到,基础结构没问题,视觉完成度不错,但细节 polish 还不够极致,复杂交互和代码健壮性也仍有提升空间。简单来说就是能用、好用,但还没到交付即可用的完成度。在一些复杂逻辑推理或需要极强创意张力的任务里,明显能感觉到它和顶级 Pro 模型之间仍然存在差距。
整体来看,Step 3.7 Flash 的定位其实足够清晰,它并非追求性能上限,而是真正把 Agent 落地的效率问题放在了首位。解决了几个最现实的问题:高延迟、token 浪费、执行卡顿、以及工具调用的不稳定。
如果你是:
- 经常需要快速迭代代码、生成原型的开发者
- 要处理文档、截图、网页等混合任务的日常用户
- 预算有限但想大规模用 Agent 的团队
那么 Step 3.7 Flash 发挥的价值会非常直接,不一定让你感到惊艳,但起码工作流跑得起来且不心疼。
说白了,当模型跑得够快够省,Agent 用起来就没那么折腾了。
而且现在尝试的成本更是来到了零,Step 3.7 Flash 正在 302.AI 限时免费调用,切勿错过。