中国AI模型调用量登顶全球。但“跑得最快”和“走对了路”之间,隔着一整个时代的距离。
假设你经营一家自来水厂。某天,你的日供水量超过了隔壁城市。媒体欢呼,股价飙升,你被评为“最成功的水厂厂长”。
但没有人问:这些水浇灌了什么?
是流进了工厂的精密制造车间,还是灌满了游乐场的漂流池?是养活了一片麦田,还是冲刷了一条本不需要冲刷的马路?
2026年3月,OpenRouter——全球最大的AI模型API聚合平台——公布了一组数据:截至3月15日当周,中国AI大模型的Token调用量达到4.69万亿,连续两周超越美国。在全球调用量前五的模型中,四席属于中国:MiniMax M2.5、月之暗面Kimi K2.5、智谱GLM-5、DeepSeek V3.2。
这个消息迅速引爆了中文互联网。朋友圈里,“第一”这两个字比任何技术细节都传播得更快。
但“第一”这个词,值得我们停下来想一想。
规模神话:谁在用“大”来回避“深”
先厘清一个容易被忽略的事实:OpenRouter的用户中,美国开发者占47.17%,中国开发者仅占6.01%。换句话说,是大量海外开发者在调用中国模型——这确实说明中国模型的全球吸引力是真实的,不是自己人刷出来的数字。
但吸引力来自哪里?
36氪的报道给出了一个直白的答案:价格。MiniMax M2.5的输出价格是1.1美元/百万Token,智谱GLM-5是2.55美元。而同等水平的Claude Opus 4.6?25美元。差距在10到20倍之间。
这不是贬低中国模型。MoE(混合专家)架构的工程创新是实打实的——推理时显存降低60%,吞吐量提升19倍,这是扎实的技术功夫。但我们需要诚实地分辨:调用量的暴涨,究竟是因为“我们的模型更聪明”,还是因为“我们的模型更便宜”?
这两件事的含义完全不同。
便宜带来规模,但规模不自动等于领先。19世纪末,美国钢铁产量超过英国,成为全球第一。但真正让美国定义工业时代的,不是炼钢炉的数量,而是泰勒的科学管理、福特的流水线、以及后来的电气化标准体系。产量第一是起点,不是终点。
今天中国AI的处境,像极了那个刚刚产钢量超过英国的美国。数字上的领先已经到手,但“管理革命”还没有发生。
什么是AI时代的“管理革命”?不是更多的Token,而是标准定义权——谁来定义AI应用的行业规范?谁来设定智能体协作的协议?谁来制定模型安全和可解释性的评估框架?这些问题,目前的答案大多还写在美国公司的技术文档里。
日用品化陷阱:革命在高潮时静悄悄地结束
换一个角度看这组数据。
三周增长127%。中国模型从2.27万亿Token冲到5.16万亿Token,只用了不到一个月。摩根大通预测,中国Token消耗量2025至2030年的年复合增长率将达330%,五年增长370倍。
这些数字让人兴奋,但它们其实在告诉我们一件反直觉的事:AI正在变成自来水。
当一个东西所有人都能用、每天都在用、价格一降再降,它的“革命性”恰恰在这个过程中被消解了。电力真正改变世界的时刻,不是法拉第发现电磁感应的那天,而是电灯走进千家万户之后——那时候,没有人再谈论“电力革命”,人们只是打开开关,觉得理所当然。
国联民生证券提出了一个概念叫“Token通胀”——不是Token变贵了,而是单位用户的Token消耗在结构性上升。用户从“问AI一个问题”变成了“让AI干一整套活”:改代码、跑测试、写文档、调Agent。编程场景天然是长上下文、多轮迭代的Token大户。AI Agent则更狠——它会自己规划、检索、执行、反思,一个任务调用模型几十次是常事。
这意味着什么?意味着Token正在从“流量”变成“燃料”。流量的边际成本趋近于零,但燃料会燃烧,会消耗,会留下残渣。
黄仁勋在今年2月的英伟达财报电话会上反复强调一句话:“推理即收入。”没有算力就没有Token,没有Token就没有收入。这话翻译成大白话就是:你烧的每一个Token,都是真金白银的能源消耗。
沉默的账单:每一次调用背后的地球成本
这是整个“调用量狂欢”中最少被讨论的一面。
Epoch AI的研究显示,GPT-4o的一次典型查询消耗约0.3瓦时。听起来不多——但乘以万亿级的调用量,数字就变得触目惊心。据CIO杂志报道,AI原生公司的月度云账单出现200%的单项暴涨已经不是新闻,而是常态。全球数据中心在2024年消耗了415太瓦时的电力,约占全球用电量的1.5%,而AI正在加速推高这个数字。
更隐蔽的是水。数据中心的冷却系统需要大量的水。每一次你让AI帮你润色一段文案,地球上的某个地方就有几毫升水变成了蒸汽。
CIO杂志的一篇文章提出了一个尖锐的概念:一次API调用的碳成本(The Carbon Cost of an API Call)。同样的计算任务,在瑞典水电驱动的数据中心运行,碳排放是16克CO₂/千瓦时;在美国燃煤地区,这个数字可以飙到800克——差距50倍。
我们以为AI是“免费”的——至少对终端用户来说。但从热力学的角度看,没有什么计算是免费的。每一个Token都是一次物理过程:电子在芯片中流动,热量从散热片传导到空气,冷却水带走多余的温度。4.69万亿Token/周这个数字,翻译成物理世界的语言,是一个正在快速膨胀的能源黑洞。
当我们为“调用量全球第一”欢呼的时候,有没有想过一个问题:我们是不是也在争当“AI碳排放全球第一”?
排名的诱惑:人类天生不擅长没有终点的游戏
为什么“全球第一”这四个字如此令人亢奋?
因为排名给了竞争一个终点线。人类的大脑是被进化塑造来处理“追到猎物→吃饱→休息”这种有明确终点的任务的。排名榜单满足了这种本能:有第一就有答案,有答案就可以安心。
但AI竞争不是百米赛跑。它更像一场没有终点的马拉松,而且赛道本身还在不断变化。今天比的是Token调用量,明天可能比的是Agent任务完成率,后天可能比的是模型在特定领域的可靠性。甚至“比”这个概念本身,都可能过时。
a16z合伙人Martin Casado观察到一个现象:硅谷AI创业公司路演时,80%的核心模型使用的是中国开源模型。这是好消息吗?当然。但它同时意味着,中国模型正在成为“基础设施层”——就像Linux之于互联网。Linux无处不在,但Linux基金会并不是互联网最赚钱的组织。
当你的模型成为别人应用的地基,你是赢了,还是被埋在了地下?
这不是一个修辞问题。它关系到整个产业的价值分配。如果中国AI的终局是“全世界最便宜的推理引擎”,那我们赢得的,可能只是一个高耗能、低利润的“AI世界工厂”角色——和三十年前的制造业故事,换了一套技术名词,讲的却是同一个剧本。
三年后,没有人再讨论“谁的模型最强”
做一个不太冒险的预测:到2029年,“全球模型调用量排名”这种榜单将会像“全球钢铁产量排名”一样,只出现在行业年报的附录里,而不是头条新闻中。
就像今天没有人再争论“谁家的电更好用”。
届时,竞争的核心会转移到一个更难量化、也更有价值的维度:谁能在你最需要的时候,以最低的代价,给你最对的那个答案。
注意,这里面有三个关键词——“最需要的时候”是场景理解,“最低的代价”是系统效率,“最对的答案”是智能深度。这三样东西,没有一样能用Token调用量来衡量。
上海财经大学胡延平教授用了一个说法叫“AI中国团”——不是一家独大,而是多家头部形成集群。这种生态格局确实比寡头垄断更有活力。但集群的优势要兑现为真正的产业领导力,需要的不是更大的调用量,而是从“跑得快”升级到“定规则”。
写在最后
回到开头的自来水厂。
真正伟大的水厂厂长,不是供水量最大的那个,而是第一个搞清楚“这座城市的每一滴水该流向哪里”的那个。
4.69万亿Token已经流出去了。
问题是,它们浇灌了什么?