今年春节前后,受中国AI圈引领,全球范围内掀起了一批大模型更新热潮,一时各种旗舰模型接踵而来,日常办公使用,到底选哪个成了问题!而具备系统操控能力的 AiPy Pro,为实测模型执行能力提供了理想载体,这是一款能够控制电脑、手机、服务器操作的AI软件,我平时用它来做PPT、分析股票、做爬虫收集数据之类的。为验证大模型真实具象化执行能力,设计了本次控制 Windows 画图作画的对比测评,画一辆汽车,看看各个大模型的表现,同时也测试了openclaw控制 Windows 画图作画的对比测评。
01
测评目的:验证大模型控制鼠标自动
操作电脑的能力
很多人觉得大模型只能聊聊天、写写文案,其实不然。这次测评的核心目的,就是验证不同大模型控制鼠标自动操作电脑的能力:
各大模型到底能不能控制画图软件。
能不能找到Windows电脑上的画图软件。
能不能操作我的电脑鼠标,在画图软件正确的位置开始做画。
画的图形到底准确不准确!
02
测评过程:统一变量保证公平
为了保证测评的公平性,我统一了所有测试变量:
测试平台:Windows 11 + AiPy Pro 0.14.1
提示词:打开Windows画图软件,控制鼠标画一个汽车
评分标准:完成度(是否成功画出)、准确度(还原度)、耗时、token消耗
所有测试在同一台电脑上完成,排除硬件差异影响
【核心测评逻辑】 大模型不需要直接画图,而是通过调用AiPy Pro的系统控制能力,操作鼠标在画图软件中完成绘制。这本质上是对大模型逻辑推理能力、代码生成能力、任务拆解能力的综合考验。
03
测评第一组:豆包Seed 2.0 Pro完
美完成任务
在所有测试模型中,豆包Seed 2.0 Pro的表现最为惊艳,全程耗时53秒,Token消耗31188,100%完成了任务:
1.指令理解阶段
:准确拆解任务为"启动画图软件→最大化窗口→选择铅笔工具→绘制汽车各部分→保存文件"5个步骤
2.代码生成阶段
:生成的PyAutoGUI代码逻辑清晰,坐标计算准确,考虑了窗口定位、等待时间等细节
3.执行阶段
:鼠标移动流畅,绘制顺序合理,先画车身轮廓,再画车顶、车窗、车轮,最后补充车灯等细节
4.完成效果
:汽车比例协调,线条流畅,所有细节完整,最终自动保存为PNG文件到指定目录
📸 豆包Seed 2.0 Pro 作画结果截图
整个过程完全不需要人工干预,从启动软件到保存文件一气呵成,展现了极强的端到端任务执行能力。
04
其它模型测试成绩汇总
这次我一共测试了9款主流大模型,整体表现差异非常大,具体成绩如下:
✅ 成功完成任务的模型:
GLM-5
耗时79秒,消耗41769 tokens,完成质量良好
📸 作画结果截图
Gemini 3.1 Pro Preview
耗时100秒,消耗29258 tokens,完成质量一般
📸 作画结果截图
Claude Sonnet 4.6
耗时232秒,消耗271707 tokens,汽车构造丰富,最终完成但效率较低
📸 作画结果截图
❌ 未完成任务的模型:
DeepSeek V3.2
耗时879秒,没有准确识别画图软件画图区域位置,越出构图区边界,导致图片准确度不足。
📸 作画结果截图
MiniMax M2.5
耗时65秒,作画图片完全失真,与汽车不符。
📸 作画结果截图
Kimi K2.5
耗时114秒,构图混乱,与汽车严重不符。
📸 作画结果截图
混元2.0
耗时92秒,构图混乱,与汽车严重不符。
📸 作画结果截图
05
如果是使用OpenClaw龙虾呢?
在做完测评后,发给朋友分享,有朋友问起我龙虾的效果,于是也使用龙虾配合Gemini 3.1 Pro做了一次测试,结果令人很失败,一笔未画!
耗时20秒,实际未执行画图操作
📸 作画结果截图
这里第一次说,画好了,但是实际画布上并没有图,然后我让继续画
这里画了个轮廓,也就是最终结果图中央的图,但不是汽车形状
后来openclaw自己又继续画,画出了最终图左上面的图形
最终结果:
**
**
📊 所有模型作画结果对比图
06
测评总结:AI原生应用时代已经到来
这次测评让我对AI工具的落地能力有了全新的认识:
- AiPy Pro这类工具的出现,让大模型真正具备了 "动手能力" ,不再是只能输出文本的"嘴强王者"
- 大模型的竞争已经从"谁更能聊"转向 "谁更能解决实际问题" ,执行能力将成为核心竞争力
- 国产大模型在特定场景下的表现已经出现两级分化,部分模型已经超过或达到国际领先水平。
未来我还会测试更多复杂场景,比如让大模型自动处理Excel数据、批量整理文件、甚至操作专业设计软件。感兴趣的朋友可以关注我,一起见证AI生产力工具的进化!