首个OpenClaw龙虾大模型排行榜来了,国产AI霸榜了!

0 阅读5分钟

最近 AI 科技领域爆火出圈的话题,非 OpenClaw 小龙虾莫属。

这个能让 AI 从嘴替变成打工人的开源智能体框架,目前正在以一种近乎疯狂的速度席卷全球。

就算你还没用过它,那你大概率也在社交网络上刷到过那个在深圳腾讯大厦前上千人排队安装 OpenClaw 的画面。

不开玩笑的说,现在同事朋友见面,打招呼都变成了:“你养了几只龙虾?”。

OpenClaw 的爆火,源于它解决了 AI 发展至今的一个核心痛点:只说不做。

你可以把 OpenClaw 看成是一个专属的数字员工,你给它目标,它就能真正动手去执行,而不是给你列一个操作步骤清单。这种从问答到执行的跨越,或许也正是其成为现象级产品的背后原因。

但是,OpenClaw 本身只是一个框架或者说平台,它的智商和能力,取决于你给它接入哪个大模型作为大脑,同时这也引出了好多同学所面临的一个实际问题:

市面上模型这么多,到底哪个最适合当龙虾的大脑呢?

那关于这个问题,就在前两天,OpenClaw 创始人 Peter Steinberger 亲自在网上发了一个专为龙虾而生的 OpenClaw 大模型适配榜单,其中国产模型两个进了前三。

这个榜单名为 PinchBench,是一个由专注于 Agent 基础设施的创业团队 Kilo AI 所推出的基准测试平台。

不同于传统的数学推理或知识问答测试,它非常硬核。因为它专门设计了二十多项跨场景的真实任务流,比如自动写代码、文档处理、工具接口调用、处理邮件……等等,来评估不同大模型在 OpenClaw 框架下的真实执行力。

并且这个榜单还是动态更新的,最新的动态排名在 PinchBench 官网就可以直接查看。

可以看到,这个榜单是从执行成功率(Success Rate)、执行速度(Speed)、价格成本(Cost)等评测维度来评估不同大模型对于 OpenClaw 框架的适配程度。

所以有了这么样一个参考榜单,大家在养龙虾时对于效果、速度以及费用成本的对比基本就有了一个心里的权衡了。


在 PinchBench 的评测维度中,成功率(Success Rate)是一个核心指标,在这份测试了全球 几十款主流模型的榜单中,竞争极其激烈。

我们在写这篇文章的时候,所看到的榜单差不多是这样:

可以看到榜单前十五中,国产模型占了近一半,包括月之暗面 Kimi、阿里千问、智谱 GLM、MiniMax、DeepSeek 等等都赫然在列。

这也意味着,在系统化操作、多任务处理等真实场景和任务流中,这些国产模型的效果和稳定性都已经达到了全球顶尖的水平。

对于普通用户和开发者来说,除了能干活,性价比也是一个需要考虑的重要因素,毕竟 AI 智能体时代的 Token 消耗量和对话时代相比会有巨量的增长,所以咱养龙虾也得该省省该花花,如果不精打细算,钱包很快就会被夹。

在这方面,国产模型展现出了巨大的优势,这对于想要长期养龙虾的普通用户和开发者来说,简直是福音。

比如 minimax-m2.1 完成一次任务的成本和 claude-opus-4.5 相比仅为其二十分之一,但是但考虑到 minimax-m2.1 接近 claude-opus-4.5 的超高成功率,所以这样一对比,minimax 的综合性价比就显得超高。

再比如 Kimi 也是,它甚至曾一度登上了 OpenClaw 的模型调用量榜首,这是大家切切实实用行动所投出来的票,其亲民的价格和强大的模型能力,也特别适合个人项目、小团队以及预算有限的场景。

所以有网友总结出了一套所谓的最省钱养虾方案,那就是模型分层使用策略。比如日常使用,常规任务,那就选用国产的 minimax、qwen、deepseek,它们好多是有套餐的,这样用起来成本可控,不心疼,并且效果也非常够用,而临时处理复杂任务再上 claude、gemini。

没有最好的模型,只有最适合你应用场景的模型,所以大家实际在选择时,也不能只盯着成功率看,而是需要结合自己的使用场景来做加减取舍。

综合来看,如果想要在执行成功率和价格成本之间作平衡选择,下面这个图片可以帮大家作参考。

其中深色方框所框出的不分就表示在效果和成本两个方向的平衡选择,这里面国产模型占了很多个。

最后,这里值得一提的是,目前 PinchBench 还是一个完全开源的项目。

快速入门:

# 克隆项目代码仓库
git clone https://github.com/pinchbench/skill.git
cd skill

# 运行指定模型的 benchmark 测试
./scripts/run.sh --model anthropic/claude-sonnet-4

用户也可以自定义选择运行特定任务,只需要在命令中使用--suite指定特定任务的任务 ID 即可。

# 运行指定任务
./scripts/run.sh --model openai/gpt-4o --suite task_01_calendar,task_02_stock

文章的最后,这里还想说的是,OpenClaw 虽火,但它也未必适合所有人,如果是盲目跟风,那就没有太大必要了,并且目前其所涉及的一些风险问题也不少,所以大家还是要根据自己或团队的实际情况审慎选用。

OpenClaw 的火爆只是一个开端,相信今年后面还会涌现出更多功能强大、使用友好、信息安全并且能极大提升工作生产力的 AI 项目,而对此,我们也可以拭目以待。

注:本文在GitHub开源仓库「编程之路」 github.com/rd2coding/R… 中已经收录,里面有我整理的6大编程方向(岗位)的自学路线+知识点大梳理、面试考点、我的简历、几本硬核pdf笔记,以及程序员生活和感悟,欢迎star。