当AI排行榜成为一场数字游戏当AI排行榜成为一场数字游戏这两天刷到好几家大模型公司的宣传，清一色都在说自己“OpenR

当AI排行榜成为一场数字游戏

这两天刷到好几家大模型公司的宣传，清一色都在说自己“OpenRouter 用量第一”、“Arena 评分领先”

说实话，我看到这些数字的时候，第一反应不是“哇这模型真厉害”，而是“这水分得有多深”

榜单是怎么变味的

LM Arena 这个榜单，前两年大家还挺认可的。毕竟看起来公平嘛，用户投票决定排名，总比厂商自己吹要靠谱

去年 Llama 4 发布的时候，事情开始变得有意思了。斯坦福和 MIT 那边联合 Cohere 发了篇论文，名字就很直白——《The Leaderboard Illusion》，榜单幻觉

论文里把大厂的操作扒了个底朝天。什么私下测几十个版本挑最好的发，什么专门调整输出风格迎合评测标准，什么精心挑选发布时机。这一套组合拳下来，分数想不好看都难

看完那篇论文，我突然理解了为什么有些模型榜单分数很高，实际用起来却让人一言难尽

Andrej Karpathy 当时还发了条推，说 OpenRouter 的用量排行可能更真实。他的逻辑是，开发者花的是真金白银，不会拿钱开玩笑，这种市场投票机制应该很难被操控

我当时还觉得这话挺有道理

现在回头看，这想法真是太天真了

AI模型排行榜竞争场景

Token 就是一切

OpenRouter 的排名规则简单粗暴——谁消耗的 Token 多，谁就排前面

这种设计本身没问题，理论上确实能反映真实使用情况。问题在于，当所有人都知道这个规则的时候，游戏就变了

最笨的办法是直接免费。模型只要不是太烂，总会有人用。免费嘛，谁不爱

这招的问题是太明显了。系统会给你打个大大的“free”标签，所有人都知道你在烧钱刷榜

聪明点的玩家，早就不这么干了

刷榜策略流程图

匿名内测这招真高明

有些厂商会在正式发布前，把模型悄悄放到 OpenRouter 上。不告诉你是谁家的，就给个代号，免费用

表面上说是收集用户反馈，优化模型。听起来很合理对吧

等模型正式发布的时候，营销稿就可以这么写了：“我们的新模型在内测期间就已经登顶 OpenRouter 使用量榜首，深受开发者喜爱”

GPT-4.1 就是这么干的。后来一堆厂商跟风

这招高明在哪呢？它把刷量这事儿包装成了技术验证。你还真不好说人家是在作弊

第三方合作的门道

更狠的玩法，是跟第三方工具合作

具体怎么操作呢？厂商给某个编程工具提供免费 API 额度，条件是这些调用得走 OpenRouter 的账

编程工具你懂的，那 Token 消耗量能小吗？尤其是那种 AI 代码助手，一个项目下来几十万 Token 轻轻松松

关键是，这种操作在榜单上看不出来是免费的。外人一看，哇这么多付费用户在用，这模型肯定很牛

xAI 在这方面玩得最溜。免费期一延再延，硬是在榜单上刷出了一波“现象级”的使用量

故事的结局也很现实。免费期一结束，排名立马掉下来。团队还闹了人事震荡，新模型也没跟上。现在榜单上基本看不到了

自己给自己刷

前段时间我闲着没事，点开某个模型的使用来源看了看

发现有几个应用贡献了特别多的调用量。点进去一看，好家伙，这不就是这家公司自己的产品吗

这就很有意思了。自家产品调自家模型，为什么要绕道 OpenRouter？要知道，走 OpenRouter 是要交手续费的

答案很明显——为了在榜单上留下记录

这种操作成本不低，但换来的是数据的“合法性”。营销的时候可以理直气壮地说，你看我们有这么多真实用户

幽灵用户

最离谱的是这个

有些模型的调用来源里，会出现一些名字很奇怪的应用。点进去看，官网打不开，GitHub 也找不到

这些“应用”就像机器人一样，每天稳定地产生 API 调用。24 小时不间断，比真人还勤快

这已经不是刷榜了，这是在凭空造数据

理性看待榜单宣传

说点真心话

写到这里，我得说清楚一件事

我不是在黑国产大模型。说实话，很多国内团队做的模型确实挺好用的，性价比也高

我想说的是，当榜单本身都被玩坏了的时候，那些数字就没什么参考价值了

OpenRouter 在全球 AI 市场的份额其实很小很小。在这个平台上排第一，不代表你就是最好的

下次看到哪家公司宣传自己排名多高的时候，不妨多想一句：这数字里有多少水分

真正好用的模型，还得自己试。榜单看看就好，别太当真