别被模型宣传骗了,真实 Agent 任务一跑就知道

0 阅读10分钟

现在市面上能调用的模型确实越来越多了,各家都有自己的亮点和侧重点,光看宣传文档和跑分数据其实很难判断哪个真正适合自己——尤其是当任务从单轮对话延伸到多步操作的时候,情况就更加复杂了。

所以我就想着,不如把几个主流模型都拉出来实际跑一遍,看看它们真实表现到底如何,也好给自己找个手感。

测评说明:  本次并非严格意义上的 benchmark 评测,更像是一次围绕单个长链路 Agent 任务的体验观察记录,结果仅供参考,不构成对模型的全面定论。

本次测试使用到的模型有 MiniMax-M3、DeepSeek-V4-flash、Step-3.7-flash、GLM5.2、Gemini3.5 flash。

这次测试任务是做一个「AI 网站聚合平台」的 HTML 单页。核心观察点有三个:

  1. 是否能连续调用工具完成任务

  2. 是否能稳定生成可运行页面

  3. 页面完成后是否会主动检查和修复问题

全局采用 WorkBuddy Agent 工具,费用为 WorkBuddy 平台本次任务消耗估算,不代表官方 API 价格。

通用提示词如下:

请完成一个「AI 工具导航站」的完整开发任务,要求从需求理解到页面生成、数据整理、代码实现、运行检查、问题修复全部独立完成。 
任务目标: 
制作一个完整可运行的 HTML 单页网站,主题为「AI 工具导航站」。页面用于展示不同类型的 AI 工具,适合做成网页 Demo、课程资料或公众号长图。 
任务要求: 
1. 信息收集 
联网搜索并整理 20 个主流 AI 工具,覆盖 AI 写作、AI 编程、AI 图片、AI 视频、AI 搜索、AI 办公等类别。每个工具需要包含:工具名称、所属公司、主要用途、适合人群、官网链接。 
2. 数据整理 
将工具按类别分组,整理成结构化数据。要求信息准确,避免重复工具,国内外工具都要覆盖。 
3. 页面设计 
生成一个清爽、现代、科技感的 HTML 页面。页面需要包含顶部标题区、分类筛选区、工具卡片区、推荐工具区、对比表格区和总结说明区。 
4. 交互功能 
页面需要支持按工具类别筛选、关键词搜索、工具卡片展开详情、返回顶部按钮。 
5. 代码实现 
使用 HTML、CSS、JavaScript 单文件实现,不依赖后端。可以使用公开 CDN 图标库或轻量图表库,但页面必须能直接运行。 
6. 运行与检查 
完成后请自行检查页面是否存在代码错误、样式错乱、按钮无效、链接缺失、筛选失败等问题。如果发现问题,请主动修复。 
7. 输出结果 
最终输出完整可运行的 HTML 文件内容,并附上简短说明:用了哪些数据来源、页面包含哪些模块、有哪些交互功能。 
特别要求: 
请尽量一次性完成整个任务。过程中如果需要调用搜索、网页读取、代码生成、文件修改、运行检查、错误修复等工具,请按合理顺序连续完成,不要跳步。最终结果以可运行页面为准。

MiniMax-M3

MiniMax-M3 在这类长链路任务里表现比较稳定。

基本上会主动进行多轮工具调用,包括搜索资料、整理数据、生成页面代码、检查文件、修复问题等。整个过程比较像一个正常工作的 Agent,不会只停留在“给一段代码”的层面。

测试过程中,工具调用失败几率很小,但也不是完全没有。我这里有一次工具调用失败,不过没有影响最后的结果生成。模型会继续往下执行,并把页面做出来。

这个是制作完成后的页面效果。

从最终页面来看,MiniMax-M3 的数据完整度、页面结构和交互功能都比较完整。它没有特别追求视觉上的炫酷,但胜在流程稳定,任务理解也比较清楚。

Workbuddy里面消耗积分:27点积分左右。

换算一下差不多在1.33元左右。

如果按 API 单价估算,MiniMax-M3 属于中低成本模型,适合反复跑 Agent 流程类任务。

经过多次测试,MiniMax-M3 的任务制作完成率为 100%  ,工具成功调用率约为  98%  。有少部分工具调用失败,但没有影响最后结果生成。

简单来说,MiniMax-M3 的优势是稳定、便宜、能跑完。适合做批量页面生成、资料整理、代码初稿、轻量级 Agent 任务。

说到便宜下面测试一下最便宜的大模型-deepseek-v4-flash看看效果怎么样。

DeepSeek-V4-flash

同样的提示词,我又测试了 DeepSeek-V4-flash。

DeepSeek-V4-flash 的整体速度比较快,响应也很干脆。它在理解需求、拆分页面模块、生成 HTML 结构这几个环节表现不错。

不过在长链路工具调用里,它的风格会更偏“快速完成任务”。也就是说,它会很快把代码生成出来,但在资料搜索、数据校验、细节修复方面,没有 MiniMax-M3 和 Step-3.7-flash 那么细。

从结果来看,页面是可以正常完成的,基础模块也都有。比如分类、卡片、搜索、详情、表格这些功能都能覆盖到。

DeepSeek-V4-flash 比较适合对速度敏感的任务。如果你只是想快速得到一个能跑的 HTML Demo,它的效率很高。

但如果任务要求包含大量资料核对、页面细节打磨、多次运行修复,它有时需要人工提醒一下。比如让它再检查一次链接、再优化一下样式、再补充数据字段。

Workbuddy里面消耗积分:4点积分左右。 换算一下差不多为0.2元左右。

从价格体感来看,DeepSeek-V4-flash 的成本优势明显,适合高频调用。

经过多次测试,DeepSeek-V4-flash 的任务制作完成率约为100%。工具调用成功率为99%。

我的感受是,DeepSeek-V4-flash 很适合“快速生成 + 人工稍微检查”的工作流。速度和成本很好,但长链路 Agent 的细节稳定性还需要看具体平台的工具环境。

Step-3.7-flash

Step-3.7-flash 是这次测试里比较符合“生产级 Agent”定位的模型。

它在多工具调用上的积极性比较高,会连续完成搜索、读取、整理、生成、修改和检查。整个过程更像是在完整执行一个任务,而不是简单回答问题。

页面效果是典型的深色科技风。

AI 很喜欢这种配色,如果没有特别说明,很多模型都会默认生成深色系的网站页面。这个不能说不好,只是如果你想要清爽、明亮、偏公众号长图风格的页面,提示词里最好提前写清楚。

Step-3.7-flash 在数据整理方面表现比较突出。AI 工具数据比较全,分类也比较清楚。它会尽量覆盖写作、编程、图片、视频、搜索、办公等不同类别,而不是只列几个常见工具。

从页面完成度来看,Step-3.7-flash 的内容密度最高。它会尽量把任务要求里的模块都补上,包括顶部标题区、分类筛选、工具卡片、推荐工具、对比表格和总结说明。

本轮测试费用约为:0.7元左右

从单价来看,Step-3.7-flash 价格属于中等偏下选手,它的优势不在低价,而在“能连续跑、少中断、完成率高”。

经过多次测试,Step-3.7-flash 的任务制作完成率约为 100%,工具成功调用率约为99%。

如果你的任务是高频、多轮、低延迟,并且包含搜索、文件、代码、修复等工具链路,Step-3.7-flash 是比较值得放进候选列表的模型。

GLM5.2

然后我们来看看 GLM5.2 生成的效果。

GLM5.2 在代码生成和页面结构上表现不错。它能理解这个任务需要一个完整的 AI 工具导航站,也能把页面模块拆得比较清楚。

从结果来看,页面整体完成度是可以的。分类、卡片、搜索、说明区这些内容都有覆盖。

GLM5.2 的特点是能力比较均衡。在Agent任务中可以正常发挥模型实力,最大的缺点就是太贵。

本轮测试费用约为:74点积分左右。 换算一下,差不多在3.66元左右。

最后再测试一个国外的模型Gemini3.5 flash,看看效果怎么样。

Gemini3.5 flash

如果是做前端页面的话,Gemini 的审美一直比较在线。所以这里我使用了 Gemini3.5 flash 模型。

下面是制作的AI工具导航网页效果。

Gemini3.5 flash 最大的优势是页面观感舒适。

它生成的前端页面会更精致,布局更舒服,留白和层次感也更好。相比前面几个模型,Gemini3.5 flash会更懂一点前端设计。

不过 Gemini3.5 flash 也有明显问题。

它在视觉表现上确实更好,但数据收集没有前面的模型多。尤其是和 Step-3.7-flash 对比,Step 收集的数据更全,分类覆盖更完整,工具调用也更积极。

本轮测试费用约为:9元左右。

Gemini3.5 flash 的价格明显更贵,尤其是输出 token 较多、带工具调用、带代码生成的任务,费用会比国产 Flash 档模型高不少。

如果你对页面要求比较高,可以试试 Gemini3.5 flash。它适合做展示页、官网 Demo、产品介绍页、课程资料页。但如果你更关心成本和高频调用,还是要谨慎一些。

测试结果对比

模型任务完成率工具成功调用率本轮费用主要优势主要不足
MiniMax-M3100%约 98%约 1.33 元稳定、成本低、能跑完整流程页面审美中规中矩,视觉冲击力一般
DeepSeek-V4-flash100%约 99%约 0.2 元速度快、成本低,适合快速出初稿细节检查和页面打磨有时需要人工提醒
Step-3.7-flash100%约 99%约 0.7 元工具调用积极,数据覆盖完整,长链路执行感强页面容易默认生成深色科技风,需要提前限定风格
GLM5.2100%约 97%约 3.66 元综合能力均衡,页面结构和代码完成度不错主动搜索、核对和修复的执行感不算最强
Gemini3.5 flash100%约 96%约 9 元页面审美最好,布局、留白和视觉层次更成熟成本明显更高,数据收集和工具调用积极性不如 Step-3.7-flash

总结

这次测试下来,我更关注的不是单轮回答能力,而是模型能不能把一个真实任务从头跑到尾。

如果只看页面美观,Gemini3.5 flash 的确更强。它生成的网页更像一个成品 Demo,视觉上会舒服一些。

如果看工具调用和数据完整度,Step-3.7-flash 的表现更突出。它会更主动地搜索、整理、生成和检查,适合长链路 Agent 任务。

如果看成本和稳定性,MiniMax-M3 是一个很稳的选择。它没有特别花哨,但多次测试都能完成任务,工具调用失败也不会明显影响结果。

DeepSeek-V4-flash 的优势是快和便宜,适合快速生成初稿。GLM5.2 则比较均衡,适合做综合型任务。

所以模型选择还是要看场景。

做展示型页面,可以优先看 Gemini。 做生产级 Agent 流程,可以重点看 Step-3.7-flash。 做高频低成本任务,可以看 MiniMax-M3 和 DeepSeek-V4-flash。