OpenClaw大模型排名以及5个让你离开“新手村”的小技巧（不是让你装Skills）龙虾已经发展到有了专门针对Open

龙虾已经发展到有了专门针对OpenClaw的基准测试。

OpenClaw 创始人 Peter Steinberger 分享这个龙虾基准测试排行榜。

PinchBench 一口气测了 32 款主流大模型，从成功率、速度、费用三个维度，看看哪个模型最适合养龙虾。

哪些大模型表现还不错？

咱们先来看最重磅的成功率排名。

前五名里咱国产大模型占据两位，MiniMax和Kimi和分列第二和第三。

Gemini 3 Flash 成功率最高，Flash 系列一直是 Gemini 的「轻量版」，主打快和便宜，没想到这次居然把自家 Pro 老大哥和 Claude、GPT 系列全超了。

天下武功唯快不破

从干活的速度来看，Minimax赢了。虽然只比第二名 Gemini 2.0 Flash 只快了 0.09 秒。

但第一名就是第一名。

如果我想节约成本呢?

GPT-5 Nano 以 0.03 美元的成本成为全场最便宜的选择，成功率 85.8%。虽然准确率不算顶尖，但这个价格……还要什么自行车？适合预算有限、对错误容忍度高的场景。

而Claude Opus 4.6 完成测试要花 5.89 美元，是 GPT-5 Nano 的将近 200 倍。

从性价比的角度考虑，绝不是上佳选择。

但是话又说回来，这个测试集推出的时间还很短，且题目也不够多，结果不一定准确。

你实际用起来哪个模型最适合你你就继续用来了, 不用过于在意这个榜单结果。

如果你还没有“养虾”，我们九章智算云提供了云上的一键开通服务，默认调用的是Kimi2.5。

来九章智算云养虾戳：

<https://www.alayanew.com/?utm_source=official02>

我们还做了一本83页的小龙虾“红宝书”，领取看这里：

另外，看到有些小伙伴还在“新手村”徘徊的，你可以先从以下5个小技巧中挑一些你看中的用上。

分享5个让你把龙虾“用顺”的小技巧吧。

给它一个岗位说明书。

能理解吧，就像公司招人需要写一个岗位说明书。

你要它干嘛也需要先写一个类似的玩意儿。

以下是一个简单的模板（你可以修改括号内内容：

你是谁/你在做什么：（一句话）
龙虾的岗位：（一句话，比如：我的内容助理/项目助理/学习助理）
工作范围：（列 3–5 条你最常用的事）
输出标准：（语气/格式/长度/禁忌）

**强制规则：**请长期记住以上要求，后续所有回答优先遵守。

明确指令内容：

你说“帮我写个周报”，它就会按它的理解乱写。

你可以把任何任务都拆成 3 句：

任务拆分（MD分点格式）

做什么：明确核心任务
按什么标准：格式、语气、字数、参考方向
交付什么：最终输出形态（例如：可直接粘贴到企业微信的文本）

示例

1）我要你写一份互联网运营岗的周总结

2）按“本周工作/数据成果/下周计划/问题”四段，每段不超过 3 条，语气正式

3）输出成一段可直接复制粘贴的精简文本

一个让它更快更准还能顺便帮你省钱的技巧：定期“清理内存”

如果你一个会话用到底，聊天记录上千条后，模型会更慢、更乱，token 也更贵。

你可以选择：

同主题用同会话：换主题就新开
清理过期记忆：打开 MEMORY.md，- 删除/归档过期信息，只留当前有用的核心
用 /status 自查：看到 token 太高就开新会话

报错别慌：复制报错 + 固定一句话，让它自己修

报错了看不懂怎么办？教你一个话术，你可以直接复制粘贴使用。

以下是你运行时出现的报错，请你自行排查问题原因，给出可直接执行的修复方案，一步步教我操作。我是纯小白，不懂任何代码，不要用专业术语。

每周 5 分钟“做培训”：它会越来越懂你。

给你一个直接复盘话术：

这一周里，你有 3 个地方不符合我的要求：……
以后请遵守：……
哪些做得好请继续保持：……

以上内容请长期记住，后续对话严格遵守。

最后我想说，小龙虾虽然听上去很好用，但确实是需要不断训练调教的。

随着时间的积累，你会得到一个你想要的定制版“贾维斯”。

OpenClaw大模型排名以及5个让你离开“新手村”的小技巧（不是让你装Skills）

哪些大模型表现还不错？

咱们先来看最重磅的成功率排名。

天下武功 唯快不破

如果我想节约成本呢?

分享5个让你把龙虾“用顺”的小技巧吧。

天下武功唯快不破