claude4比deepseek贵80倍,但效果好了20%,pk国产大模型

137 阅读1分钟

Claude 4发布了,号称有无数个突破,无数个超越,那实际效果到底怎么样?是不是像传说中那么神?今天我们用国内首款办公提效AI牛马智能体AiPy来测评下,在端午旅游规划这个场景下,谁更强!提示词:
租住在西二旗地铁站旁,一个月后计划结束北漂了,想留个念想,怎么趁今年端午节好好游玩下,给我做个规划,花销控制在1500元以内,结果保存成一份精美HTML报告,放在当前目录下。测评智能体:

  • 智能体:爱派(AiPy) v0.1.28
  • 下载地址:www.aipy.app
  • 项目特点:项目免费、开源,内置大模型种类丰富,搭配大模型,可操控电脑上任意软件/文件、手机APP、智能家居设备等。

测评大模型:

  • Claude Opus 4
  • DeepSeek v3 0324
  • qwen-plus-latest
  • hunyuan-turbos-latest

测评结论:测评实际结果显示,Claude果然有过人之处,国产大模型需要加油了!当然Claude也贵,高于国产大模型十倍以上的差距,不得不为DeepSeek开创的高性价比模式点赞!

大模型****评分****结果评价****
Claude Opus 4★★★★★报告美观、丰富、怀旧感满满
DeepSeek v3 0324★★★★报告美观、配有图文
qwen-plus-latest★★★报告美观、报告有瑕疵
hunyuan-turbos-latest★★词不达意,多为景点罗列,无规划

最后看实际生成的报告内容:以下为AiPy使用Claude 4生成报告图片以下为AiPy使用Deepseek生成报告图片以下为AiPy使用Qwen生成报告图片以下为AiPy使用Hunyuan生成报告图片 非原创,转自:mp.weixin.qq.com/s/kBdzKajWT…