30 天限免开启，Step 3.7 Flash 实测：不惊艳但顺手，Agent 不用省着用了5 月 29 日，阶跃星辰正

文章导读：

“Flash”往往被视作大模型的轻量妥协版，但阶跃星辰最新发布的 1980 亿参数 MoE 模型 Step-3.7-Flash，却试图打破这一刻板印象。凭借最高 400 Tokens/s 的极速输出、原生多模态与 Agent 能力，它究竟是只停留在纸面参数，还是真有两把刷子？综合实测显示：模型或许未达顶级 Pro 的智商上限，却在速度、稳定性与性价比上卷到极致。对于急需高频调用 Agent、快速迭代代码的开发者而言，可作为真正的生产力利器。

全文约 3500 字

5 月 29 日，阶跃星辰正式发布了新一代开源推理模型 Step-3.7-Flash。每当看到“Flash”这个后缀，用户自然会联想到“低价版、轻量版、适合简单任务”——但就像前不久才发布的Gemini 3.5 Flash，Step-3.7-Flash 也希望打破这种刻板印象。

Step-3.7-Flash 模型直接堆到了 1980 亿参数的稀疏混合专家（MoE）架构。更关键的是，这是一款具备原生视觉理解能力的多模态模型，看图、读表、分析界面截图对它来说都是基本功。

我们对其核心亮点进行总结：

1. 真正 Flash 级别的极致输出速度。 Step-3.7-Flash 直接将输出速度拉到了最高 400 Tokens/s（TPS）。这意味着什么？以前你泡杯咖啡的时间它可能还在思考，现在眨眼之间就能吐出一篇长文或上百行代码。对于需要高频调用、实时交互的生产级场景来说，这种“读完一句话，模型已经写完一段”的极速体验，本身就是生产力的质变。

2. Agent 能力不再是 Pro 模型的专利。以前的Flash模型大多只能做点简单问答，但 Step-3.7-Flash被官方赋予了“Pro 级别 Agent 能力”。无论是工具调用，还是主流框架兼容（如 Claude Code、KiloCode、Hermes Agent、OpenClaw），它都能理解复杂指令，自主拆解任务，调用工具完成多步骤闭环。

3. 视觉与推理的深度融合。得益于其多模态架构，Step-3.7-Flash 不仅能处理纯文本，更能将图像、图表、UI 截图中的视觉信息与文本逻辑进行联合推理。这对于需要处理网页、文档、设计稿的开发者来说，意味着模型能看懂的不再只是文字，而是整个世界。

4. 把性价比卷到了极致。依托 1980 亿参数 MoE 架构的稀疏激活特性，模型在保持接近顶级模型智商的同时，将调用成本牢牢锁死在 Flash 级别。对于需要高频调用、大规模部署的企业和开发者而言，这意味着直接的降本增效。

而从今天开始，Stepfun 阶跃星辰联合 302.AI 推出 30 天限免使用的优惠活动，无需预充，注册即用，实打实的免费体验：

那么，这款对标 Pro 级功能体验的国产开源大模型，到底是真有两把刷子，还是只是纸面参数？今天，302.AI 就来实测 Step-3.7-Flash，从代码生成到逻辑推理，从纯文本到多模态视觉任务，逐一验货。

I. 实测模型基础信息

（1）测评目的：

本评测侧重模型对逻辑，数学，编程，多模态，人类直觉等问题的测试，非专业前沿领域的权威测试。旨在观察对比模型的进化趋势，提供选型参考。

（2）测评方法：

本次测评使用302.AI收录的题库进行独立测试。模型分别就逻辑与数学（共10题），人类直觉（共7题），多模态（共20题）以及编程模拟（共12题）进行案例测试，对应记分规则取最终结果，下文选取代表性案例进行展示。

题库地址：docs.google.com/spreadsheet…

💡记分规则：

按满分10分记分，设定对应扣分标准，最终取每轮得分的平均值。

（3）测评工具：

所有模型均在302.AI Stuidio客户端内使用对应模型，使用统一的提示词，取第一次生成结果
编程测试使用302.AI Stuidio客户端的Vibe模式：调用Claude Code沙盒

编程案例分数评级：

⭐⭐⭐⭐⭐ S 级（封神）：行业标杆，重新定义标准。

⭐⭐⭐⭐ A 级（卓越）：生产力合格，无明显短板。

⭐⭐⭐ B 级（优秀）：表现中规中矩，存在短板。

⭐⭐及以下 C级（不合格）：不可用，存在明显问题。

III. 案例展示

案例 1：多模态推理

提示词： 解图中几何题 As shown in the figure, in the ⊙O with a radius of 2.0, C is a point on the extended line of the diameter AB, CD is tangent to the circle at point D. Connect AD, given that ∠DAC = 30.0, the length of the line segment CD is ()

Choices:

(A) 1

(B) √{3}

(C) 2

(D) 2√{3}

正确答案：D

此处需要加以说明： **Step 3.7 Flash模型提供三挡推理强度，无法关闭。***

以下展示使用 low 强度，包含推理过程，答案正确，总计耗时约 9 秒

ezgif.com-video-to-gif-converter (23).gif

附 Gemini 3.1 Flash Lite 输出，该模型不展示思考推理过程，耗时约 6 秒

ezgif.com-video-to-gif-converter (24).gif

案例 2：Tool Use

提示词：给我一份广州明日穿衣建议

查询结果准确，耗时 24s

weather-ezgif.com-video-to-gif-converter.gif

案例 3：程序化 SVG 图形生成

提示词：绘制一幅鹈鹕骑自行车的动态svg

输出质量未达标，出现多处图形组合位置错乱

案例 4：SaaS 落地页

Create a modern, fully responsive SaaS landing page using HTML5 and Tailwind CSS (via CDN).
The page should feel like a premium productivity app brand website, with a clean, minimal, and slightly futuristic aesthetic.
You may simplify implementation details where needed, but the overall visual design quality must remain high.

General Setup
Use HTML5 + Tailwind CSS CDN only.
Use Inter font from Google Fonts.
Use FontAwesome for icons (social + UI icons).
The page must be fully responsive (mobile → desktop).
Smooth hover transitions and subtle animations are encouraged but not strictly required to be perfectly staggered.

1. Hero / CTA Section
A clean, centered hero section that introduces the product.
Include:
Headline:
"Take control of your productivity today."
Large, bold, responsive typography.
Subtext:
"Stay organized, focused, and on top of your tasks with Tenlas."
Muted color, readable, supportive tone.
Primary CTA Button:
Text: "Download now"
Optional:
Subtle background gradient or soft noise texture feel

2. Features Section
Add a simple grid of 3–6 feature cards.
Each feature should include:
Icon (FontAwesome or simple visual symbol)
Title
Short description
Suggested themes:
Task management
Focus mode
Smart reminders
Productivity analytics
Cross-device sync
Keep design clean and evenly spaced.

3. Social Proof / Highlight Section (Optional but recommended)
Add a simple section that can include:
A short testimonial block OR
A statistic highlight (e.g. "10,000+ users improving productivity daily")
Keep it minimal and visually calm.

4. Footer Section
Left Column:
Brand name: Tenlas
Tagline: "Unlock your productivity potential."
Social icons (Instagram, Facebook, Dribbble/Globe, X/Twitter)
Social icons should be simple, clean, and interactive with hover effects.
Right Column:
A grid of navigation links:
Column 1: Home, Features, About, Contact
Column 2: Pricing, Blog, Updates, FAQ
Column 3: Terms, Privacy, Licensing, Changelog
Column 4: Resources, Support, Careers

5. Bottom Brand Statement
At the very bottom of the page, include a large “Tenlas” brand wordmark.
This should feel like a visual anchor of the page.
You may implement it using:
Large typography OR
SVG text scaling (preferred if possible)
It should span the width of the content container and feel bold but elegant.

Animation & Interaction (Lightweight)
Use subtle fade-up or opacity transitions for sections (optional).
Hover effects on buttons and links should be smooth.
Keep animations minimal and elegant (no heavy motion design required).

Responsiveness
Mobile-first layout
Stack columns vertically on small screens
Expand into multi-column layout on larger screens
Ensure readable spacing and typography at all sizes

Output Requirement
Output ONLY a single complete HTML file
No explanations
No markdown code fences
Must be ready to run directly in browser

Step 3.7 Flash 第一次输出，耗时约 1 分钟

具备较完整的页面结构和简单交互，配色依旧是经典 AI 紫

step3.7-landingpage-ezgif.com-video-to-gif-converter.gif

在原提示词基础上加入配色和更多动效要求，Step 3.7 Flash 第二次输出如下，耗时 1 分 37 秒

虽然交付物未达到完全可用程度，但页面整体视觉效果和品牌风格明显提升

step3.7-landingpage2-ezgif.com-video-to-gif-converter.gif

IV. Step 3.7 Flash 模型实测结论

先说结论，一圈实测下来，Step 3.7 Flash 最突出的地方无疑就是速度和效率。

从几何题 10 秒内给出完整推理过程以及正确答案、天气查询 20 多秒完成，到复杂 SaaS 落地页仅用 1 分半钟就提升了一个视觉高度，整个体验最直观的变化不是输出的内容有多硬核，而是等待时间被压得非常低。你基本不会再有那种看模型慢慢思考的空档感，它更像是你刚抛出任务，下一步就已经开始输出结果了。

1. 核心优势：性价比 + 效率

Step 3.7 Flash 的突出性能表现并不在于把复杂问题做到更高上限，而在于把很多原本浪费在流程里的时间砍掉了。

在 Agent 任务里，时间 消耗 通常来自三件事：等待生成、多轮修正、工具调用之间的空转。而 Step 3.7 Flash 的优化方向很明确，尽量减少这些无效停顿。 因此用户在使用过程中会明显感觉到，模型不是在一步一步慢慢尝试，而是倾向于一次给完整结果 + 后续微调的模式。这也解释了为什么它在工具调用、代码生成、UI 产出这些任务里显得特别顺手，因为模型更像是在加速完工进程，而非陷入反复斟酌。

价格和速度叠加之后，Step 3.7 Flash 带来的变化更偏工程层面。高性价比和高输出速度的组合效果就是：你可以不太心疼 token 去跑 Agent 任务了。这点对开发者和团队其实很现实——很多 Agent 方案不是做不出来，而是调用成本太高。而 Flash 这类模型的意义就在于把实验成本拉低，开发者可以多次尝试、多次迭代。 同时支持在 Claude Code 这类生态接入，属于拿来就能用的类型，适合做自动化脚本、原型验证、多轮任务编排、批量生成类工作流。

2. Agent 能力：稳定性 > 精细度

从实际执行表现来看，模型对不同使用形态的适配度比较高，无论是单轮生成任务，还是带有工具链的多步流程，都能保持相对稳定的执行节奏。在多轮任务里，模型不会刻意去追求每一步都做到最优解，而是更偏向先把流程跑完。整体表现是任务链条比较稳，工具调用也不容易乱序，中间不会出现明显的发散或卡住。

在长链路 Agent 场景里，这种特性其实比单步精度更重要，因为在真实任务中，最常见问题并不是输出结果偏差，而是任务执行到一半断掉、或者上下文跑偏导致整个流程重来。

3. 不足之处：上限未达 Pro 级

相较于优势来说，Step 3.7 Flash 的短板也很明显。在 SaaS 页面这种案例里可以明显看到，基础结构没问题，视觉完成度不错，但细节 polish 还不够极致，复杂交互和代码健壮性也仍有提升空间。简单来说就是能用、好用，但还没到交付即可用的完成度。在一些复杂逻辑推理或需要极强创意张力的任务里，明显能感觉到它和顶级 Pro 模型之间仍然存在差距。

整体来看，Step 3.7 Flash 的定位其实足够清晰，它并非追求性能上限，而是真正把 Agent 落地的效率问题放在了首位。解决了几个最现实的问题：高延迟、token 浪费、执行卡顿、以及工具调用的不稳定。

如果你是：

经常需要快速迭代代码、生成原型的开发者
要处理文档、截图、网页等混合任务的日常用户
预算有限但想大规模用 Agent 的团队

那么 Step 3.7 Flash 发挥的价值会非常直接，不一定让你感到惊艳，但起码工作流跑得起来且不心疼。

说白了，当模型跑得够快够省，Agent 用起来就没那么折腾了。

而且现在尝试的成本更是来到了零，Step 3.7 Flash 正在 302.AI 限时免费调用，切勿错过。