OpenClaw大模型排名以及5个让你离开“新手村”的小技巧(不是让你装Skills)

0 阅读4分钟

龙虾已经发展到有了专门针对OpenClaw的基准测试。

OpenClaw 创始人 Peter Steinberger 分享这个龙虾基准测试排行榜。

PinchBench 一口气测了 32 款主流大模型,从成功率、速度、费用三个维度,看看哪个模型最适合养龙虾。

哪些大模型表现还不错?

咱们先来看最重磅的成功率排名。

前五名里咱国产大模型占据两位,MiniMax和Kimi和分列第二和第三。

Gemini 3 Flash 成功率最高,Flash 系列一直是 Gemini 的「轻量版」,主打快和便宜,没想到这次居然把自家 Pro 老大哥和 Claude、GPT 系列全超了。

天下武功 唯快不破

从干活的速度来看,Minimax赢了。虽然只比第二名 Gemini 2.0 Flash 只快了 0.09 秒。

但第一名就是第一名。

如果我想节约成本呢?

GPT-5 Nano 以 0.03 美元的成本成为全场最便宜的选择,成功率 85.8%。虽然准确率不算顶尖,但这个价格……还要什么自行车?适合预算有限、对错误容忍度高的场景。

而Claude Opus 4.6 完成测试要花 5.89 美元,是 GPT-5 Nano 的将近 200 倍。

从性价比的角度考虑,绝不是上佳选择。

但是话又说回来,这个测试集推出的时间还很短,且题目也不够多,结果不一定准确。

你实际用起来哪个模型最适合你你就继续用来了, 不用过于在意这个榜单结果。

如果你还没有“养虾”,我们九章智算云提供了云上的一键开通服务,默认调用的是Kimi2.5。

来九章智算云养虾戳:

<https://www.alayanew.com/?utm_source=official02>

我们还做了一本83页的小龙虾“红宝书”,领取看这里:

另外,看到有些小伙伴还在“新手村”徘徊的,你可以先从以下5个小技巧中挑一些你看中的用上。

分享5个让你把龙虾“用顺”的小技巧吧。

  1. 给它一个岗位说明书

能理解吧,就像公司招人需要写一个岗位说明书。

你要它干嘛也需要先写一个类似的玩意儿。

以下是一个简单的模板(你可以修改括号内内容:

  • 你是谁/你在做什么:(一句话)
  • 龙虾的岗位:(一句话,比如:我的内容助理/项目助理/学习助理)
  • 工作范围:(列 3–5 条你最常用的事)
  • 输出标准:(语气/格式/长度/禁忌)

**强制规则:**请长期记住以上要求,后续所有回答优先遵守。

  1. 明确指令内容

你说“帮我写个周报”,它就会按它的理解乱写。

你可以把任何任务都拆成 3 句:

任务拆分(MD分点格式)

  • 做什么:明确核心任务

  • 按什么标准:格式、语气、字数、参考方向

  • 交付什么:最终输出形态(例如:可直接粘贴到企业微信的文本)

示例

1)我要你写一份互联网运营岗的周总结

2)按“本周工作/数据成果/下周计划/问题”四段,每段不超过 3 条,语气正式

3)输出成一段可直接复制粘贴的精简文本

  1. 一个让它更快更准还能顺便帮你省钱的技巧:定期“清理内存”

如果你一个会话用到底,聊天记录上千条后,模型会更慢、更乱,token 也更贵。

你可以选择:

  • 同主题用同会话:换主题就新开
  • 清理过期记忆:打开 MEMORY.md,- 删除/归档过期信息,只留当前有用的核心
  • 用 /status 自查:看到 token 太高就开新会话
  1. 报错别慌:复制报错 + 固定一句话,让它自己修

报错了看不懂怎么办?教你一个话术,你可以直接复制粘贴使用。

以下是你运行时出现的报错,请你自行排查问题原因,给出可直接执行的修复方案,一步步教我操作。我是纯小白,不懂任何代码,不要用专业术语。

  1. 每周 5 分钟“做培训”:它会越来越懂你。

给你一个直接复盘话术:

  • 这一周里,你有 3 个地方不符合我的要求:……
  • 以后请遵守:……
  • 哪些做得好请继续保持:……

以上内容请长期记住,后续对话严格遵守。

最后我想说,小龙虾虽然听上去很好用,但确实是需要不断训练调教的。

随着时间的积累,你会得到一个你想要的定制版“贾维斯”。