全球 AI 热潮下，一场实测戳破多少虚假神话

今天你AiPy了吗

2026-03-17 71 阅读5分钟

今年春节前后，受中国AI圈引领，全球范围内掀起了一批大模型更新热潮，一时各种旗舰模型接踵而来，日常办公使用，到底选哪个成了问题！而具备系统操控能力的 AiPy Pro，为实测模型执行能力提供了理想载体，这是一款能够控制电脑、手机、服务器操作的AI软件，我平时用它来做PPT、分析股票、做爬虫收集数据之类的。为验证大模型真实具象化执行能力，设计了本次控制 Windows 画图作画的对比测评，画一辆汽车，看看各个大模型的表现，同时也测试了openclaw控制 Windows 画图作画的对比测评。

01

测评目的：验证大模型控制鼠标自动

操作电脑的能力

很多人觉得大模型只能聊聊天、写写文案，其实不然。这次测评的核心目的，就是验证不同大模型控制鼠标自动操作电脑的能力：

各大模型到底能不能控制画图软件。

能不能找到Windows电脑上的画图软件。

能不能操作我的电脑鼠标，在画图软件正确的位置开始做画。

画的图形到底准确不准确！

02

测评过程：统一变量保证公平

为了保证测评的公平性，我统一了所有测试变量：

测试平台：Windows 11 + AiPy Pro 0.14.1

提示词：打开Windows画图软件，控制鼠标画一个汽车

评分标准：完成度（是否成功画出）、准确度（还原度）、耗时、token消耗

所有测试在同一台电脑上完成，排除硬件差异影响

【核心测评逻辑】 大模型不需要直接画图，而是通过调用AiPy Pro的系统控制能力，操作鼠标在画图软件中完成绘制。这本质上是对大模型逻辑推理能力、代码生成能力、任务拆解能力的综合考验。

03

测评第一组：豆包Seed 2.0 Pro完

美完成任务

在所有测试模型中，豆包Seed 2.0 Pro的表现最为惊艳，全程耗时53秒，Token消耗31188，100%完成了任务：

1.指令理解阶段

：准确拆解任务为"启动画图软件→最大化窗口→选择铅笔工具→绘制汽车各部分→保存文件"5个步骤

2.代码生成阶段

：生成的PyAutoGUI代码逻辑清晰，坐标计算准确，考虑了窗口定位、等待时间等细节

3.执行阶段

：鼠标移动流畅，绘制顺序合理，先画车身轮廓，再画车顶、车窗、车轮，最后补充车灯等细节

4.完成效果

：汽车比例协调，线条流畅，所有细节完整，最终自动保存为PNG文件到指定目录

📸 豆包Seed 2.0 Pro 作画结果截图

整个过程完全不需要人工干预，从启动软件到保存文件一气呵成，展现了极强的端到端任务执行能力。

04

其它模型测试成绩汇总

这次我一共测试了9款主流大模型，整体表现差异非常大，具体成绩如下：

✅ 成功完成任务的模型：

GLM-5

耗时79秒，消耗41769 tokens，完成质量良好

📸 作画结果截图

Gemini 3.1 Pro Preview

耗时100秒，消耗29258 tokens，完成质量一般

📸 作画结果截图

Claude Sonnet 4.6

耗时232秒，消耗271707 tokens，汽车构造丰富，最终完成但效率较低

📸 作画结果截图

❌ 未完成任务的模型：

DeepSeek V3.2

耗时879秒，没有准确识别画图软件画图区域位置，越出构图区边界，导致图片准确度不足。

📸 作画结果截图

MiniMax M2.5

耗时65秒，作画图片完全失真，与汽车不符。

📸 作画结果截图

Kimi K2.5

耗时114秒，构图混乱，与汽车严重不符。

📸 作画结果截图

混元2.0

耗时92秒，构图混乱，与汽车严重不符。

📸 作画结果截图

05

如果是使用OpenClaw龙虾呢？

在做完测评后，发给朋友分享，有朋友问起我龙虾的效果，于是也使用龙虾配合Gemini 3.1 Pro做了一次测试，结果令人很失败，一笔未画！

耗时20秒，实际未执行画图操作

📸 作画结果截图

这里第一次说，画好了，但是实际画布上并没有图，然后我让继续画

这里画了个轮廓，也就是最终结果图中央的图，但不是汽车形状

后来openclaw自己又继续画，画出了最终图左上面的图形

最终结果：

**
**

📊 所有模型作画结果对比图

06

测评总结：AI原生应用时代已经到来

这次测评让我对AI工具的落地能力有了全新的认识：

AiPy Pro这类工具的出现，让大模型真正具备了 "动手能力" ，不再是只能输出文本的"嘴强王者"
大模型的竞争已经从"谁更能聊"转向 "谁更能解决实际问题" ，执行能力将成为核心竞争力
国产大模型在特定场景下的表现已经出现两级分化，部分模型已经超过或达到国际领先水平。

未来我还会测试更多复杂场景，比如让大模型自动处理Excel数据、批量整理文件、甚至操作专业设计软件。感兴趣的朋友可以关注我，一起见证AI生产力工具的进化！