智能体测试——AiPy,skywork,flowith,manus

298 阅读6分钟

上期简单介绍了Manus和AiPy的一些优点,但没有上手使用,本期给结合自身在生活中的一些应用案例,为大家具体分析一下各个智能体的使用场景。

本期将通过五个任务,具体测试不同智能体之间的功能差别。为减少过程中其他因素干扰,本次测试提示词相同,采用相同资料,设备一致。

**任务一:搜集资料生成文档**

提示词:我要做一份分析报告,请帮我上网查找有关TCL国际化的资料,生成报告文件,文件包括TCL国际化的动因及国际化的方式

结果(按生成质量排序):

1.skywork:消耗积分361,耗时20min,产出结果很正式,有引言且字体统一,出处都有来源标注。分点明确,有条理,文后有参考文献。但是word文档下载后所有的来源标注都需要修改,且耗时久。

525aa4ce9c1a44bb8c111d5a9c57add6.png

2.manus:用时7min,生成的word文档内容完善,有引言、参考资料等,字体统一,逻辑清晰,但下载后出现特殊符号,需手动删除。

2da2476adb8e44cc98aed6be6640b404.png 3.flowith:用时8min,word文档内容充分,逻辑清晰,下载后同样有多余符号,有参考文献,和manus生成效果类似。

efa16a69dc3549eda5dca30938de3190.png

4.AiPy:用时4min,生成的文件结构分明,并有重点标注,数据较多,但不管是数据还是其他资料都没有标注来源且文章篇幅较少,不适合用来专业写作。

**任务二:网页开发**

提示词:请帮我开发一个网页版智能对话助手,要求能够上传不同类型的文件(PDF和word),调用deepseek模型,读取文件并能够回复用户的问题。

结果:

1.AiPy:用时6min,生成的界面简约干净,可上传文件,可问答交流。成功

e2dcf1fc856d418a9a850c9c41fcad9d.png

2.skywork:消耗积分959,耗时46min,生成的结果页面美观程度和AiPy类似,但不可以上传文件且不能发送消息,只是一个具备前端的“空壳”。

dfdcac75afb8421a834c5bcad284d7ea.png

3.manus:用时共17min,第一次并没有生成网页在线文件,而是生成了代码包让我自己部署,我又下达命令后生成网页文件,但试了好几次都打不开。生成失败。

a17aacaa890345f695080e4aff288478.png

4.flowith:用时11min,结果只可上传文件,没有成功发送消息。

7826b5c97c9542c3b7307f2178ab8571.png

**任务三:生成PPT**

提示词:请根据pdf(已上传)做一个ppt,要求包含三部分,1,TCL出海的动因2.TCL出海的模式3.TCL国际化遇到的问题及解决方案。ppt要简约正式,便于演讲。

结果:

1.manus:用时25min,和pdf相关度高,生成的ppt较为正式、简约,但是下载之后会出现字体重叠,还是需要修改,但是总体而言好评,和skywork不相上下,甚至优于天工,因为manus很多张ppt都会生成表格或图片作为证据,便于演讲展示,这一点很重要,而没有全部堆砌文字。

764ed966278845be9ab3e1a59d260858.png

  1. skywork:ppt质量个人感觉还算可以,没有跑出框框的现象,支持页面在线调整和编辑,可以先调整后再保存,但和pdf相关度一般。消耗积分1280,耗时25min,有点久。

44789b576eaf4d95948ab696443c1c05.png

3.AiPy:ppt生成质量较差,内容相关度低,耗时7min

8d4568055d0141d8a4818d67afdac1d0.png

4.flowith:首次用时12min,生成的ppt黑屏,测试失败。第二次生成只有首页,生成失败

**任务四:分析数据生成图表**

提示词:同样是2386行某店铺美团下单数据,要求智能体找出GMV大于8000的日期,并以柱状图的形式展现出来,横轴为时间,纵轴为门店GMV和门店进店人数。

结果:

1.AiPy用时6min,结果准确,图形清楚且正确。生成的图片比较精美,基本没有瑕疵,符合预期。图片如下:

6d09e8b9bb65426fb05a3f525eb7461d.png

2.manus用时5min,图正确生成了,画图方式少见但也能看懂,可能需要提示词再精准一些。效果不如AiPy,但比skywork好一些。

ed48cefc5cb94b359fdc5e4839cf0efe.png

3.flowith:用时7min,图片很精美,但结果错误

76f3c44f272345a68b5d1e1c71ed91c3.png

4.Skywork第一次用时5min,但结果出错,显示文件中没有GMV大于8000的门店,因此没有给我生成柱状图;第二次用时12min,结果还是没有找出数据,反而给了我一份趋势报告,发现他数据读取的有问题,只读取到2019年9月9日,后来重启,重新上传,这次文件终于读全了,用时9min,生成了一份带有图片的excel表格,但是显然这个图片没有Aipy精致美观

ecfe7380736d49d9b61d1426f7d42c17.png

8b4be6ba7a9a4cc380b1d509e9488534.png

bec9a47c5e6d4f468012922566173d55.png

**任务五:工具调用**

提示词:请帮我调用xx地图API,获取景点的详细地址,并汇总成表格。

结果:

1.AiPy:用时4min,生成excel,地址准确。

79b18ec84ef64cd9b1b1d737c982f46b.png

2.manus:用时10min,生成不同类型文件,位置合理。

4016e007e9784a158121c847a4c7a33e.png

3.skywork:用时14min,生成最终excel文件,地址合理

e4745839300047e7a3bda0b822f37e6f.png

4.flowith:用时较久,生成最终景点和详细地址。相对于其他智能体结果简单。

31bd5d235c7f4b238fee6c261007652f.png

总结

89d70e47913de9e40e38af9ae3fa2be7.png

不同智能体有不同的使用场景,毕竟“术业有专攻”,从综合测试结果来看,AiPy和manus的综合表现较好,在编程开发,图表生成及工具调用等方面有很大的优势,但从生成时间来看,AiPy用时较短,重要的是AiPy免费呀!这是很多智能体做不到的。

根据个人的使用感受,skywork主攻办公office,在文档生成方面表现极佳,但skywork会主动无提示的询问任务规划,容易被用户忽略。对学生党来讲,积分消耗快,充值48元能完成10个左右ppt,7-9个文档,4-7个表格。如果长期使用,成本高。

flowith的工作流模式很有新意并且支持不同的大模型,支持多任务并行,但是从任务结果表现来看,很多方面还有待提升,同时,进行多个任务的时候可能会相互影响进程速度,而且,在很多次任务运行时,flowith会主动询问用户,需要用户保持专注并回复。个人认为flowith是上手难度最大的,熟练使用之后也是一个好的选择。

一次测试并不能断定智能体的优劣,当然还需要大家在平时使用发现问题,积累经验。最后把各智能体的网址放在最后,方便大家尝试使用。

AiPy:www.aipyaipy.com/

manus:manus.im/

skywork:www.tiangong.cn/

flowith:flowith.io/