全球 AI 热潮下,一场实测戳破多少虚假神话

0 阅读5分钟

今年春节前后,受中国AI圈引领,全球范围内掀起了一批大模型更新热潮,一时各种旗舰模型接踵而来,日常办公使用,到底选哪个成了问题!而具备系统操控能力的 AiPy Pro,为实测模型执行能力提供了理想载体,这是一款能够控制电脑、手机、服务器操作的AI软件,我平时用它来做PPT、分析股票、做爬虫收集数据之类的。为验证大模型真实具象化执行能力,设计了本次控制 Windows 画图作画的对比测评,画一辆汽车,看看各个大模型的表现,同时也测试了openclaw控制 Windows 画图作画的对比测评。

01

测评目的:验证大模型控制鼠标自动

操作电脑的能力

很多人觉得大模型只能聊聊天、写写文案,其实不然。这次测评的核心目的,就是验证不同大模型控制鼠标自动操作电脑的能力:

各大模型到底能不能控制画图软件。

能不能找到Windows电脑上的画图软件。

能不能操作我的电脑鼠标,在画图软件正确的位置开始做画。

画的图形到底准确不准确!

02

测评过程:统一变量保证公平

为了保证测评的公平性,我统一了所有测试变量:

测试平台:Windows 11 + AiPy Pro 0.14.1

提示词:打开Windows画图软件,控制鼠标画一个汽车

评分标准:完成度(是否成功画出)、准确度(还原度)、耗时、token消耗

所有测试在同一台电脑上完成,排除硬件差异影响

【核心测评逻辑】 大模型不需要直接画图,而是通过调用AiPy Pro的系统控制能力,操作鼠标在画图软件中完成绘制。这本质上是对大模型逻辑推理能力、代码生成能力、任务拆解能力的综合考验。

03

测评第一组:豆包Seed 2.0 Pro完

美完成任务

在所有测试模型中,豆包Seed 2.0 Pro的表现最为惊艳,全程耗时53秒,Token消耗31188,100%完成了任务:

1.指令理解阶段

:准确拆解任务为"启动画图软件→最大化窗口→选择铅笔工具→绘制汽车各部分→保存文件"5个步骤

2.代码生成阶段

:生成的PyAutoGUI代码逻辑清晰,坐标计算准确,考虑了窗口定位、等待时间等细节

3.执行阶段

:鼠标移动流畅,绘制顺序合理,先画车身轮廓,再画车顶、车窗、车轮,最后补充车灯等细节

4.完成效果

:汽车比例协调,线条流畅,所有细节完整,最终自动保存为PNG文件到指定目录

📸 豆包Seed 2.0 Pro 作画结果截图

整个过程完全不需要人工干预,从启动软件到保存文件一气呵成,展现了极强的端到端任务执行能力。

04

其它模型测试成绩汇总

这次我一共测试了9款主流大模型,整体表现差异非常大,具体成绩如下:

✅ 成功完成任务的模型:

GLM-5

耗时79秒,消耗41769 tokens,完成质量良好

📸 作画结果截图

Gemini 3.1 Pro Preview

耗时100秒,消耗29258 tokens,完成质量一般

📸 作画结果截图

Claude Sonnet 4.6

耗时232秒,消耗271707 tokens,汽车构造丰富,最终完成但效率较低

📸 作画结果截图

❌ 未完成任务的模型:

DeepSeek V3.2

耗时879秒,没有准确识别画图软件画图区域位置,越出构图区边界,导致图片准确度不足。

📸 作画结果截图

MiniMax M2.5

耗时65秒,作画图片完全失真,与汽车不符。

📸 作画结果截图

Kimi K2.5

耗时114秒,构图混乱,与汽车严重不符。

📸 作画结果截图

混元2.0

耗时92秒,构图混乱,与汽车严重不符。

📸 作画结果截图

05

如果是使用OpenClaw龙虾呢?

在做完测评后,发给朋友分享,有朋友问起我龙虾的效果,于是也使用龙虾配合Gemini 3.1 Pro做了一次测试,结果令人很失败,一笔未画!

耗时20秒,实际未执行画图操作

📸 作画结果截图

这里第一次说,画好了,但是实际画布上并没有图,然后我让继续画

这里画了个轮廓,也就是最终结果图中央的图,但不是汽车形状

后来openclaw自己又继续画,画出了最终图左上面的图形

最终结果:

**
**

📊 所有模型作画结果对比图

06

测评总结:AI原生应用时代已经到来

这次测评让我对AI工具的落地能力有了全新的认识:

  • AiPy Pro这类工具的出现,让大模型真正具备了 "动手能力" ,不再是只能输出文本的"嘴强王者"
  • 大模型的竞争已经从"谁更能聊"转向 "谁更能解决实际问题"执行能力将成为核心竞争力
  • 国产大模型在特定场景下的表现已经出现两级分化,部分模型已经超过或达到国际领先水平

未来我还会测试更多复杂场景,比如让大模型自动处理Excel数据、批量整理文件、甚至操作专业设计软件。感兴趣的朋友可以关注我,一起见证AI生产力工具的进化!