当AI排行榜成为一场数字游戏

0 阅读4分钟

当AI排行榜成为一场数字游戏

这两天刷到好几家大模型公司的宣传,清一色都在说自己“OpenRouter 用量第一”、“Arena 评分领先”

说实话,我看到这些数字的时候,第一反应不是“哇这模型真厉害”,而是“这水分得有多深”

榜单是怎么变味的

LM Arena 这个榜单,前两年大家还挺认可的。毕竟看起来公平嘛,用户投票决定排名,总比厂商自己吹要靠谱

去年 Llama 4 发布的时候,事情开始变得有意思了。斯坦福和 MIT 那边联合 Cohere 发了篇论文,名字就很直白——《The Leaderboard Illusion》,榜单幻觉

论文里把大厂的操作扒了个底朝天。什么私下测几十个版本挑最好的发,什么专门调整输出风格迎合评测标准,什么精心挑选发布时机。这一套组合拳下来,分数想不好看都难

看完那篇论文,我突然理解了为什么有些模型榜单分数很高,实际用起来却让人一言难尽

Andrej Karpathy 当时还发了条推,说 OpenRouter 的用量排行可能更真实。他的逻辑是,开发者花的是真金白银,不会拿钱开玩笑,这种市场投票机制应该很难被操控

我当时还觉得这话挺有道理

现在回头看,这想法真是太天真了

AI模型排行榜竞争场景

Token 就是一切

OpenRouter 的排名规则简单粗暴——谁消耗的 Token 多,谁就排前面

这种设计本身没问题,理论上确实能反映真实使用情况。问题在于,当所有人都知道这个规则的时候,游戏就变了

最笨的办法是直接免费。模型只要不是太烂,总会有人用。免费嘛,谁不爱

这招的问题是太明显了。系统会给你打个大大的“free”标签,所有人都知道你在烧钱刷榜

聪明点的玩家,早就不这么干了

刷榜策略流程图

匿名内测这招真高明

有些厂商会在正式发布前,把模型悄悄放到 OpenRouter 上。不告诉你是谁家的,就给个代号,免费用

表面上说是收集用户反馈,优化模型。听起来很合理对吧

等模型正式发布的时候,营销稿就可以这么写了:“我们的新模型在内测期间就已经登顶 OpenRouter 使用量榜首,深受开发者喜爱”

GPT-4.1 就是这么干的。后来一堆厂商跟风

这招高明在哪呢?它把刷量这事儿包装成了技术验证。你还真不好说人家是在作弊

第三方合作的门道

更狠的玩法,是跟第三方工具合作

具体怎么操作呢?厂商给某个编程工具提供免费 API 额度,条件是这些调用得走 OpenRouter 的账

编程工具你懂的,那 Token 消耗量能小吗?尤其是那种 AI 代码助手,一个项目下来几十万 Token 轻轻松松

关键是,这种操作在榜单上看不出来是免费的。外人一看,哇这么多付费用户在用,这模型肯定很牛

xAI 在这方面玩得最溜。免费期一延再延,硬是在榜单上刷出了一波“现象级”的使用量

故事的结局也很现实。免费期一结束,排名立马掉下来。团队还闹了人事震荡,新模型也没跟上。现在榜单上基本看不到了

自己给自己刷

前段时间我闲着没事,点开某个模型的使用来源看了看

发现有几个应用贡献了特别多的调用量。点进去一看,好家伙,这不就是这家公司自己的产品吗

这就很有意思了。自家产品调自家模型,为什么要绕道 OpenRouter?要知道,走 OpenRouter 是要交手续费的

答案很明显——为了在榜单上留下记录

这种操作成本不低,但换来的是数据的“合法性”。营销的时候可以理直气壮地说,你看我们有这么多真实用户

幽灵用户

最离谱的是这个

有些模型的调用来源里,会出现一些名字很奇怪的应用。点进去看,官网打不开,GitHub 也找不到

这些“应用”就像机器人一样,每天稳定地产生 API 调用。24 小时不间断,比真人还勤快

这已经不是刷榜了,这是在凭空造数据

理性看待榜单宣传

说点真心话

写到这里,我得说清楚一件事

我不是在黑国产大模型。说实话,很多国内团队做的模型确实挺好用的,性价比也高

我想说的是,当榜单本身都被玩坏了的时候,那些数字就没什么参考价值了

OpenRouter 在全球 AI 市场的份额其实很小很小。在这个平台上排第一,不代表你就是最好的

下次看到哪家公司宣传自己排名多高的时候,不妨多想一句:这数字里有多少水分

真正好用的模型,还得自己试。榜单看看就好,别太当真