AI时代，我们遥遥领先了，但是，我们要去哪？假设你经营一家自来水厂。某天，你的日供水量超过了隔壁城市。媒体欢呼，股价飙升

中国AI模型调用量登顶全球。但“跑得最快”和“走对了路”之间，隔着一整个时代的距离。

假设你经营一家自来水厂。某天，你的日供水量超过了隔壁城市。媒体欢呼，股价飙升，你被评为“最成功的水厂厂长”。

但没有人问：这些水浇灌了什么？

是流进了工厂的精密制造车间，还是灌满了游乐场的漂流池？是养活了一片麦田，还是冲刷了一条本不需要冲刷的马路？

2026年3月，OpenRouter——全球最大的AI模型API聚合平台——公布了一组数据：截至3月15日当周，中国AI大模型的Token调用量达到4.69万亿，连续两周超越美国。在全球调用量前五的模型中，四席属于中国：MiniMax M2.5、月之暗面Kimi K2.5、智谱GLM-5、DeepSeek V3.2。

OpenRouter平台全球模型调用量排名.jpeg

这个消息迅速引爆了中文互联网。朋友圈里，“第一”这两个字比任何技术细节都传播得更快。

但“第一”这个词，值得我们停下来想一想。

规模神话：谁在用“大”来回避“深”

先厘清一个容易被忽略的事实：OpenRouter的用户中，美国开发者占47.17%，中国开发者仅占6.01%。换句话说，是大量海外开发者在调用中国模型——这确实说明中国模型的全球吸引力是真实的，不是自己人刷出来的数字。

但吸引力来自哪里？

36氪的报道给出了一个直白的答案：价格。MiniMax M2.5的输出价格是1.1美元/百万Token，智谱GLM-5是2.55美元。而同等水平的Claude Opus 4.6？25美元。差距在10到20倍之间。

中美主流模型价格对比.jpeg

这不是贬低中国模型。MoE（混合专家）架构的工程创新是实打实的——推理时显存降低60%，吞吐量提升19倍，这是扎实的技术功夫。但我们需要诚实地分辨：调用量的暴涨，究竟是因为“我们的模型更聪明”，还是因为“我们的模型更便宜”？

这两件事的含义完全不同。

便宜带来规模，但规模不自动等于领先。19世纪末，美国钢铁产量超过英国，成为全球第一。但真正让美国定义工业时代的，不是炼钢炉的数量，而是泰勒的科学管理、福特的流水线、以及后来的电气化标准体系。产量第一是起点，不是终点。

今天中国AI的处境，像极了那个刚刚产钢量超过英国的美国。数字上的领先已经到手，但“管理革命”还没有发生。

什么是AI时代的“管理革命”？不是更多的Token，而是标准定义权——谁来定义AI应用的行业规范？谁来设定智能体协作的协议？谁来制定模型安全和可解释性的评估框架？这些问题，目前的答案大多还写在美国公司的技术文档里。

日用品化陷阱：革命在高潮时静悄悄地结束

换一个角度看这组数据。

三周增长127%。中国模型从2.27万亿Token冲到5.16万亿Token，只用了不到一个月。摩根大通预测，中国Token消耗量2025至2030年的年复合增长率将达330%，五年增长370倍。

这些数字让人兴奋，但它们其实在告诉我们一件反直觉的事：AI正在变成自来水。

当一个东西所有人都能用、每天都在用、价格一降再降，它的“革命性”恰恰在这个过程中被消解了。电力真正改变世界的时刻，不是法拉第发现电磁感应的那天，而是电灯走进千家万户之后——那时候，没有人再谈论“电力革命”，人们只是打开开关，觉得理所当然。

国联民生证券提出了一个概念叫“Token通胀”——不是Token变贵了，而是单位用户的Token消耗在结构性上升。用户从“问AI一个问题”变成了“让AI干一整套活”：改代码、跑测试、写文档、调Agent。编程场景天然是长上下文、多轮迭代的Token大户。AI Agent则更狠——它会自己规划、检索、执行、反思，一个任务调用模型几十次是常事。

中美模型在OpenRouter平台的Token调用量对比走势.jpeg

这意味着什么？意味着Token正在从“流量”变成“燃料”。流量的边际成本趋近于零，但燃料会燃烧，会消耗，会留下残渣。

黄仁勋在今年2月的英伟达财报电话会上反复强调一句话：“推理即收入。”没有算力就没有Token，没有Token就没有收入。这话翻译成大白话就是：你烧的每一个Token，都是真金白银的能源消耗。

沉默的账单：每一次调用背后的地球成本

这是整个“调用量狂欢”中最少被讨论的一面。

Epoch AI的研究显示，GPT-4o的一次典型查询消耗约0.3瓦时。听起来不多——但乘以万亿级的调用量，数字就变得触目惊心。据CIO杂志报道，AI原生公司的月度云账单出现200%的单项暴涨已经不是新闻，而是常态。全球数据中心在2024年消耗了415太瓦时的电力，约占全球用电量的1.5%，而AI正在加速推高这个数字。

更隐蔽的是水。数据中心的冷却系统需要大量的水。每一次你让AI帮你润色一段文案，地球上的某个地方就有几毫升水变成了蒸汽。

CIO杂志的一篇文章提出了一个尖锐的概念：一次API调用的碳成本（The Carbon Cost of an API Call）。同样的计算任务，在瑞典水电驱动的数据中心运行，碳排放是16克CO₂/千瓦时；在美国燃煤地区，这个数字可以飙到800克——差距50倍。

我们以为AI是“免费”的——至少对终端用户来说。但从热力学的角度看，没有什么计算是免费的。每一个Token都是一次物理过程：电子在芯片中流动，热量从散热片传导到空气，冷却水带走多余的温度。4.69万亿Token/周这个数字，翻译成物理世界的语言，是一个正在快速膨胀的能源黑洞。

当我们为“调用量全球第一”欢呼的时候，有没有想过一个问题：我们是不是也在争当“AI碳排放全球第一”？

排名的诱惑：人类天生不擅长没有终点的游戏

为什么“全球第一”这四个字如此令人亢奋？

因为排名给了竞争一个终点线。人类的大脑是被进化塑造来处理“追到猎物→吃饱→休息”这种有明确终点的任务的。排名榜单满足了这种本能：有第一就有答案，有答案就可以安心。

但AI竞争不是百米赛跑。它更像一场没有终点的马拉松，而且赛道本身还在不断变化。今天比的是Token调用量，明天可能比的是Agent任务完成率，后天可能比的是模型在特定领域的可靠性。甚至“比”这个概念本身，都可能过时。

a16z合伙人Martin Casado观察到一个现象：硅谷AI创业公司路演时，80%的核心模型使用的是中国开源模型。这是好消息吗？当然。但它同时意味着，中国模型正在成为“基础设施层”——就像Linux之于互联网。Linux无处不在，但Linux基金会并不是互联网最赚钱的组织。

当你的模型成为别人应用的地基，你是赢了，还是被埋在了地下？

这不是一个修辞问题。它关系到整个产业的价值分配。如果中国AI的终局是“全世界最便宜的推理引擎”，那我们赢得的，可能只是一个高耗能、低利润的“AI世界工厂”角色——和三十年前的制造业故事，换了一套技术名词，讲的却是同一个剧本。

三年后，没有人再讨论“谁的模型最强”

做一个不太冒险的预测：到2029年，“全球模型调用量排名”这种榜单将会像“全球钢铁产量排名”一样，只出现在行业年报的附录里，而不是头条新闻中。

就像今天没有人再争论“谁家的电更好用”。

届时，竞争的核心会转移到一个更难量化、也更有价值的维度：谁能在你最需要的时候，以最低的代价，给你最对的那个答案。

注意，这里面有三个关键词——“最需要的时候”是场景理解，“最低的代价”是系统效率，“最对的答案”是智能深度。这三样东西，没有一样能用Token调用量来衡量。

上海财经大学胡延平教授用了一个说法叫“AI中国团”——不是一家独大，而是多家头部形成集群。这种生态格局确实比寡头垄断更有活力。但集群的优势要兑现为真正的产业领导力，需要的不是更大的调用量，而是从“跑得快”升级到“定规则”。

写在最后

回到开头的自来水厂。

真正伟大的水厂厂长，不是供水量最大的那个，而是第一个搞清楚“这座城市的每一滴水该流向哪里”的那个。

4.69万亿Token已经流出去了。

问题是，它们浇灌了什么？