别被模型宣传骗了，真实 Agent 任务一跑就知道现在市面上能调用的模型确实越来越多了，各家都有自己的亮点和侧重点，光看

现在市面上能调用的模型确实越来越多了，各家都有自己的亮点和侧重点，光看宣传文档和跑分数据其实很难判断哪个真正适合自己——尤其是当任务从单轮对话延伸到多步操作的时候，情况就更加复杂了。

所以我就想着，不如把几个主流模型都拉出来实际跑一遍，看看它们真实表现到底如何，也好给自己找个手感。

测评说明： 本次并非严格意义上的 benchmark 评测，更像是一次围绕单个长链路 Agent 任务的体验观察记录，结果仅供参考，不构成对模型的全面定论。

本次测试使用到的模型有 MiniMax-M3、DeepSeek-V4-flash、Step-3.7-flash、GLM5.2、Gemini3.5 flash。

这次测试任务是做一个「AI 网站聚合平台」的 HTML 单页。核心观察点有三个：

是否能连续调用工具完成任务
是否能稳定生成可运行页面
页面完成后是否会主动检查和修复问题

全局采用 WorkBuddy Agent 工具，费用为 WorkBuddy 平台本次任务消耗估算，不代表官方 API 价格。

通用提示词如下：

请完成一个「AI 工具导航站」的完整开发任务，要求从需求理解到页面生成、数据整理、代码实现、运行检查、问题修复全部独立完成。 
任务目标： 
制作一个完整可运行的 HTML 单页网站，主题为「AI 工具导航站」。页面用于展示不同类型的 AI 工具，适合做成网页 Demo、课程资料或公众号长图。 
任务要求： 
1. 信息收集 
联网搜索并整理 20 个主流 AI 工具，覆盖 AI 写作、AI 编程、AI 图片、AI 视频、AI 搜索、AI 办公等类别。每个工具需要包含：工具名称、所属公司、主要用途、适合人群、官网链接。 
2. 数据整理 
将工具按类别分组，整理成结构化数据。要求信息准确，避免重复工具，国内外工具都要覆盖。 
3. 页面设计 
生成一个清爽、现代、科技感的 HTML 页面。页面需要包含顶部标题区、分类筛选区、工具卡片区、推荐工具区、对比表格区和总结说明区。 
4. 交互功能 
页面需要支持按工具类别筛选、关键词搜索、工具卡片展开详情、返回顶部按钮。 
5. 代码实现 
使用 HTML、CSS、JavaScript 单文件实现，不依赖后端。可以使用公开 CDN 图标库或轻量图表库，但页面必须能直接运行。 
6. 运行与检查 
完成后请自行检查页面是否存在代码错误、样式错乱、按钮无效、链接缺失、筛选失败等问题。如果发现问题，请主动修复。 
7. 输出结果 
最终输出完整可运行的 HTML 文件内容，并附上简短说明：用了哪些数据来源、页面包含哪些模块、有哪些交互功能。 
特别要求： 
请尽量一次性完成整个任务。过程中如果需要调用搜索、网页读取、代码生成、文件修改、运行检查、错误修复等工具，请按合理顺序连续完成，不要跳步。最终结果以可运行页面为准。

MiniMax-M3

MiniMax-M3 在这类长链路任务里表现比较稳定。

基本上会主动进行多轮工具调用，包括搜索资料、整理数据、生成页面代码、检查文件、修复问题等。整个过程比较像一个正常工作的 Agent，不会只停留在“给一段代码”的层面。

测试过程中，工具调用失败几率很小，但也不是完全没有。我这里有一次工具调用失败，不过没有影响最后的结果生成。模型会继续往下执行，并把页面做出来。

这个是制作完成后的页面效果。

从最终页面来看，MiniMax-M3 的数据完整度、页面结构和交互功能都比较完整。它没有特别追求视觉上的炫酷，但胜在流程稳定，任务理解也比较清楚。

Workbuddy里面消耗积分：27点积分左右。

换算一下差不多在1.33元左右。

如果按 API 单价估算，MiniMax-M3 属于中低成本模型，适合反复跑 Agent 流程类任务。

经过多次测试，MiniMax-M3 的任务制作完成率为 100% ，工具成功调用率约为 98% 。有少部分工具调用失败，但没有影响最后结果生成。

简单来说，MiniMax-M3 的优势是稳定、便宜、能跑完。适合做批量页面生成、资料整理、代码初稿、轻量级 Agent 任务。

说到便宜下面测试一下最便宜的大模型-deepseek-v4-flash看看效果怎么样。

DeepSeek-V4-flash

同样的提示词，我又测试了 DeepSeek-V4-flash。

DeepSeek-V4-flash 的整体速度比较快，响应也很干脆。它在理解需求、拆分页面模块、生成 HTML 结构这几个环节表现不错。

不过在长链路工具调用里，它的风格会更偏“快速完成任务”。也就是说，它会很快把代码生成出来，但在资料搜索、数据校验、细节修复方面，没有 MiniMax-M3 和 Step-3.7-flash 那么细。

从结果来看，页面是可以正常完成的，基础模块也都有。比如分类、卡片、搜索、详情、表格这些功能都能覆盖到。

DeepSeek-V4-flash 比较适合对速度敏感的任务。如果你只是想快速得到一个能跑的 HTML Demo，它的效率很高。

但如果任务要求包含大量资料核对、页面细节打磨、多次运行修复，它有时需要人工提醒一下。比如让它再检查一次链接、再优化一下样式、再补充数据字段。

Workbuddy里面消耗积分：4点积分左右。换算一下差不多为0.2元左右。

从价格体感来看，DeepSeek-V4-flash 的成本优势明显，适合高频调用。

经过多次测试，DeepSeek-V4-flash 的任务制作完成率约为100%。工具调用成功率为99%。

我的感受是，DeepSeek-V4-flash 很适合“快速生成 + 人工稍微检查”的工作流。速度和成本很好，但长链路 Agent 的细节稳定性还需要看具体平台的工具环境。

Step-3.7-flash

Step-3.7-flash 是这次测试里比较符合“生产级 Agent”定位的模型。

它在多工具调用上的积极性比较高，会连续完成搜索、读取、整理、生成、修改和检查。整个过程更像是在完整执行一个任务，而不是简单回答问题。

页面效果是典型的深色科技风。

AI 很喜欢这种配色，如果没有特别说明，很多模型都会默认生成深色系的网站页面。这个不能说不好，只是如果你想要清爽、明亮、偏公众号长图风格的页面，提示词里最好提前写清楚。

Step-3.7-flash 在数据整理方面表现比较突出。AI 工具数据比较全，分类也比较清楚。它会尽量覆盖写作、编程、图片、视频、搜索、办公等不同类别，而不是只列几个常见工具。

从页面完成度来看，Step-3.7-flash 的内容密度最高。它会尽量把任务要求里的模块都补上，包括顶部标题区、分类筛选、工具卡片、推荐工具、对比表格和总结说明。

本轮测试费用约为：0.7元左右

从单价来看，Step-3.7-flash 价格属于中等偏下选手，它的优势不在低价，而在“能连续跑、少中断、完成率高”。

经过多次测试，Step-3.7-flash 的任务制作完成率约为 100%，工具成功调用率约为99%。

如果你的任务是高频、多轮、低延迟，并且包含搜索、文件、代码、修复等工具链路，Step-3.7-flash 是比较值得放进候选列表的模型。

GLM5.2

然后我们来看看 GLM5.2 生成的效果。

GLM5.2 在代码生成和页面结构上表现不错。它能理解这个任务需要一个完整的 AI 工具导航站，也能把页面模块拆得比较清楚。

从结果来看，页面整体完成度是可以的。分类、卡片、搜索、说明区这些内容都有覆盖。

GLM5.2 的特点是能力比较均衡。在Agent任务中可以正常发挥模型实力，最大的缺点就是太贵。

本轮测试费用约为：74点积分左右。换算一下，差不多在3.66元左右。

最后再测试一个国外的模型Gemini3.5 flash，看看效果怎么样。

Gemini3.5 flash

如果是做前端页面的话，Gemini 的审美一直比较在线。所以这里我使用了 Gemini3.5 flash 模型。

下面是制作的AI工具导航网页效果。

Gemini3.5 flash 最大的优势是页面观感舒适。

它生成的前端页面会更精致，布局更舒服，留白和层次感也更好。相比前面几个模型，Gemini3.5 flash会更懂一点前端设计。

不过 Gemini3.5 flash 也有明显问题。

它在视觉表现上确实更好，但数据收集没有前面的模型多。尤其是和 Step-3.7-flash 对比，Step 收集的数据更全，分类覆盖更完整，工具调用也更积极。

本轮测试费用约为：9元左右。

Gemini3.5 flash 的价格明显更贵，尤其是输出 token 较多、带工具调用、带代码生成的任务，费用会比国产 Flash 档模型高不少。

如果你对页面要求比较高，可以试试 Gemini3.5 flash。它适合做展示页、官网 Demo、产品介绍页、课程资料页。但如果你更关心成本和高频调用，还是要谨慎一些。

测试结果对比

模型	任务完成率	工具成功调用率	本轮费用	主要优势	主要不足
MiniMax-M3	100%	约 98%	约 1.33 元	稳定、成本低、能跑完整流程	页面审美中规中矩，视觉冲击力一般
DeepSeek-V4-flash	100%	约 99%	约 0.2 元	速度快、成本低，适合快速出初稿	细节检查和页面打磨有时需要人工提醒
Step-3.7-flash	100%	约 99%	约 0.7 元	工具调用积极，数据覆盖完整，长链路执行感强	页面容易默认生成深色科技风，需要提前限定风格
GLM5.2	100%	约 97%	约 3.66 元	综合能力均衡，页面结构和代码完成度不错	主动搜索、核对和修复的执行感不算最强
Gemini3.5 flash	100%	约 96%	约 9 元	页面审美最好，布局、留白和视觉层次更成熟	成本明显更高，数据收集和工具调用积极性不如 Step-3.7-flash

总结

这次测试下来，我更关注的不是单轮回答能力，而是模型能不能把一个真实任务从头跑到尾。

如果只看页面美观，Gemini3.5 flash 的确更强。它生成的网页更像一个成品 Demo，视觉上会舒服一些。

如果看工具调用和数据完整度，Step-3.7-flash 的表现更突出。它会更主动地搜索、整理、生成和检查，适合长链路 Agent 任务。

如果看成本和稳定性，MiniMax-M3 是一个很稳的选择。它没有特别花哨，但多次测试都能完成任务，工具调用失败也不会明显影响结果。

DeepSeek-V4-flash 的优势是快和便宜，适合快速生成初稿。GLM5.2 则比较均衡，适合做综合型任务。

所以模型选择还是要看场景。

做展示型页面，可以优先看 Gemini。做生产级 Agent 流程，可以重点看 Step-3.7-flash。做高频低成本任务，可以看 MiniMax-M3 和 DeepSeek-V4-flash。