龙虾已经发展到有了专门针对OpenClaw的基准测试。
OpenClaw 创始人 Peter Steinberger 分享这个龙虾基准测试排行榜。
PinchBench 一口气测了 32 款主流大模型,从成功率、速度、费用三个维度,看看哪个模型最适合养龙虾。
哪些大模型表现还不错?
咱们先来看最重磅的成功率排名。
前五名里咱国产大模型占据两位,MiniMax和Kimi和分列第二和第三。
Gemini 3 Flash 成功率最高,Flash 系列一直是 Gemini 的「轻量版」,主打快和便宜,没想到这次居然把自家 Pro 老大哥和 Claude、GPT 系列全超了。
天下武功 唯快不破
从干活的速度来看,Minimax赢了。虽然只比第二名 Gemini 2.0 Flash 只快了 0.09 秒。
但第一名就是第一名。
如果我想节约成本呢?
GPT-5 Nano 以 0.03 美元的成本成为全场最便宜的选择,成功率 85.8%。虽然准确率不算顶尖,但这个价格……还要什么自行车?适合预算有限、对错误容忍度高的场景。
而Claude Opus 4.6 完成测试要花 5.89 美元,是 GPT-5 Nano 的将近 200 倍。
从性价比的角度考虑,绝不是上佳选择。
但是话又说回来,这个测试集推出的时间还很短,且题目也不够多,结果不一定准确。
你实际用起来哪个模型最适合你你就继续用来了, 不用过于在意这个榜单结果。
如果你还没有“养虾”,我们九章智算云提供了云上的一键开通服务,默认调用的是Kimi2.5。
来九章智算云养虾戳:
<https://www.alayanew.com/?utm_source=official02>
我们还做了一本83页的小龙虾“红宝书”,领取看这里:
另外,看到有些小伙伴还在“新手村”徘徊的,你可以先从以下5个小技巧中挑一些你看中的用上。
分享5个让你把龙虾“用顺”的小技巧吧。
- 给它一个岗位说明书。
能理解吧,就像公司招人需要写一个岗位说明书。
你要它干嘛也需要先写一个类似的玩意儿。
以下是一个简单的模板(你可以修改括号内内容:
- 你是谁/你在做什么:(一句话)
- 龙虾的岗位:(一句话,比如:我的内容助理/项目助理/学习助理)
- 工作范围:(列 3–5 条你最常用的事)
- 输出标准:(语气/格式/长度/禁忌)
**强制规则:**请长期记住以上要求,后续所有回答优先遵守。
- 明确指令内容:
你说“帮我写个周报”,它就会按它的理解乱写。
你可以把任何任务都拆成 3 句:
任务拆分(MD分点格式)
-
做什么:明确核心任务
-
按什么标准:格式、语气、字数、参考方向
-
交付什么:最终输出形态(例如:可直接粘贴到企业微信的文本)
示例
1)我要你写一份互联网运营岗的周总结
2)按“本周工作/数据成果/下周计划/问题”四段,每段不超过 3 条,语气正式
3)输出成一段可直接复制粘贴的精简文本
- 一个让它更快更准还能顺便帮你省钱的技巧:定期“清理内存”
如果你一个会话用到底,聊天记录上千条后,模型会更慢、更乱,token 也更贵。
你可以选择:
- 同主题用同会话:换主题就新开
- 清理过期记忆:打开 MEMORY.md,- 删除/归档过期信息,只留当前有用的核心
- 用 /status 自查:看到 token 太高就开新会话
- 报错别慌:复制报错 + 固定一句话,让它自己修
报错了看不懂怎么办?教你一个话术,你可以直接复制粘贴使用。
以下是你运行时出现的报错,请你自行排查问题原因,给出可直接执行的修复方案,一步步教我操作。我是纯小白,不懂任何代码,不要用专业术语。
- 每周 5 分钟“做培训”:它会越来越懂你。
给你一个直接复盘话术:
- 这一周里,你有 3 个地方不符合我的要求:……
- 以后请遵守:……
- 哪些做得好请继续保持:……
以上内容请长期记住,后续对话严格遵守。
最后我想说,小龙虾虽然听上去很好用,但确实是需要不断训练调教的。
随着时间的积累,你会得到一个你想要的定制版“贾维斯”。