同题画图大考,AiPy 章鱼适配性拉满,OpenClaw 龙虾全程 “哑火”

0 阅读4分钟

作为一名长期关注AI生产力的创作者,我决定用一个硬核测试来验证各大模型的真实能力:让AI控制Windows画图软件,画一辆汽车

这不是简单的文本生成测试,而是一场对AI系统操控能力的全面检验。

一、测试背景:为什么选择"画图"这个场景?

很多人觉得大模型只能聊聊天、写写文案,其实不然。随着AI原生应用的兴起,大模型正逐渐从"对话工具"向"操作系统助手"转变。

本次测试的核心目的,就是验证不同大模型控制鼠标自动操作电脑的能力:

  • 各大模型到底能不能找到Windows电脑上的画图软件?
  • 能不能操作鼠标在正确的位置开始作画?
  • 画出来的图形到底准确不准确?

为保证公平,所有测试都在同一台Windows 11电脑上完成,使用统一的AiPY Pro 0.14.1作为控制平台,提示词固定为:"打开Windows画图软件,控制鼠标画一个汽车"。

二、章鱼开画:一气呵成

当任务交给AiPy时,过程非常顺畅:

  1. 指令理解阶段:准确拆解任务为"启动画图软件→最大化窗口→选择铅笔工具→绘制汽车各部分→保存文件"5个步骤
  2. 代码生成阶段:生成的PyAutoGUI代码逻辑清晰,坐标计算准确,考虑了窗口定位、等待时间等细节
  3. 执行阶段:鼠标移动流畅,绘制顺序合理
  4. 完成效果:汽车比例协调,线条流畅,细节完整,最终自动保存为PNG文件到指定目录

整个过程完全不需要人工干预,从启动软件到保存结束,Gemini 3.1 Pro在AiPy章鱼平台上耗时100秒,顺利完成了画图任务。虽然完成质量算不上顶级,但它确实做到了

三、龙虾登场:全程哑火

在章鱼顺利完成测试后,我换成OpenClaw,使用完全相同的Gemini 3.1 Pro模型,输入同样的提示词,再来一次。

结果出人意料:

耗时20秒,一笔未画,全程哑火。

从启动到结束,全程20秒,模型响应了,但是什么都没干

四、为什么差距这么大?

同样的模型,同样的任务,为什么章鱼能行,龙虾不行?从我这次测试的结果来看,差距主要体现在三个方面:

1. 适配性差距

AiPy Pro作为一款专注于系统控制的AI软件,对各大模型生成的代码格式、坐标计算、执行逻辑都做了深度适配优化。大模型输出的PyAutoGUI代码,能被准确解析并转化为实际的鼠标键盘操作。

而OpenClaw在这方面显然存在适配缺陷。同样的代码,在AiPy平台能跑,在龙虾平台就是执行不了。

2. 场景理解差距

AiPy的设计定位非常清晰:让大模型拥有"动手能力",成为真正能够操作电脑的生产力工具。从做PPT到分析股票再到爬虫,所有功能都围绕"解决实际问题"展开。

OpenClaw给人的感觉,更偏向于框架层面的搭建,对于具体使用场景的打磨还不够深入。当遇到画图这种需要精确坐标和流畅执行的任务,短板立刻显现。

3. 用户体验差距

在AiPy平台上,整个执行过程清晰可见,代码运行、鼠标移动都能实时反馈,就算出错也能快速定位问题。

而在OpenClaw这次测试中,程序说"执行完成",但屏幕上什么都没发生,用户连问题出在哪都不知道。这种体验对于想要用AI干活的用户来说,几乎是不可接受的。

在这场画图大考中,AiPy章鱼用实际行动证明了:好的AI工具,就是要让大模型能干活、会干活,干好活。适配性不是小事,是决定AI工具生死存亡的大事。

未来,越来越多的任务会交给AI去执行——自动整理Excel、批量处理文件、操作专业软件……只有那些真正做好适配的框架,才能在AI生产力的浪潮中站稳脚跟。