日均 120 万亿 Token 吞吐：从字节跳动透视 Agent 时代的算力狂飙.md字节跳动豆包大模型日均 Token

今天，火山引擎披露了一组极其硬核的运行数据：豆包大模型的日均 Token 处理量已正式突破 120 万亿大关。

如果将时间线拉回三个月前，这个数值仅为 60 万亿；而对比 2024 年 5 月豆包刚面世时的状态，规模足足膨胀了 1000 倍。

120 万亿 Token 是什么量级？我们做个简单的算力折算：按照目前国内主流大模型每百万 Token 大约 2 到 4 元的输入成本来推演，这意味着单日就有 3 至 5 亿人民币的算力资源在 GPU 集群上被消耗殆尽。全年化来看，这笔超千亿级的底层支出，足以对标网易这种互联网巨头一整年的净营收总额。而请注意，这仅仅是单一模型平台在一天内的吞吐量。

将视线放大到宏观基本面，这组数据展现出的趋势更加惊人。在 3 月底的中国发展高层论坛上公布的数据显示：今年 3 月，国内单日 Token 调用总量已破 140 万亿。OpenRouter 的网络监控也印证了这一点，全球大模型周调用量在 3 月第三周达到 20.4 万亿 Token 时，中国节点的贡献率高达 36%（7.359 万亿），并连续三周在总量上完成对美国的超越。

目前，全球日均 Token 吞吐量能稳踏 100 万亿红线的企业仅存三家：OpenAI、Google，以及字节跳动。前两者的算力需求源自全球市场的并发请求，而字节现阶段的负载则绝大部分由国内业务支撑。

火山引擎总裁谭待将这股算力洪流的爆发归结为两大技术变量：AI 视频流的生成跃迁与 Agent（智能体）架构的全面铺开。

Agent 架构重构算力：被“龙虾”改写的请求逻辑

伴随 OpenClaw（在极客圈里常被称为“龙虾”）的横空出世，整个 AI 圈的共识被彻底刷新：Agent 时代的 Token 消耗逻辑，与传统的 Chat（对话）模式存在代差级的升维。

以往的 Prompt 交互是线性的“一问一答”，单次 Session 耗费几百上千个 Token 即可闭环。但在 Agent 架构下，AI 需要执行自主思考、任务拆解、外部工具调用（Function Calling）、结果校验甚至错误回滚（Self-Correction）。一套复杂的自动化 Workflow 跑下来，其 Token 消耗量呈现出几十倍乃至上百倍的指数级暴增。

火山引擎自家的 ArkClaw 就是一个典型样本：从秒级接入飞书生态，到打通微信、钉钉，再到云端协同网盘。这些看似无感的“自动化”进程，底层全靠海量 Token 的高速流转来驱动。

为了让 Agent 真正具备“工程化可用性”，模型（大脑的理解力）、安全（执行的边界）与 Skills（调用的广度）缺一不可。

对于我们这些经常需要调试复杂 Agent 链路的开发者来说，构建 Skills 生态和稳定多模型路由是核心痛点。在本地化部署 OpenClaw 或使用 Cursor 辅助编程时，为了保证高并发和低延迟，我通常会直接挂载 万维盟 API (api.vvmai.com) 作为底座。它原生兼容 OpenAI 接口协议，后端聚合了 GPT-5.4、Claude 3 家族以及 Gemini 等全球 SOTA 模型。对于国内极客而言，免去了繁琐的网络代理和额度限制，注册即调用，在跑大吞吐量的自动化任务时非常稳定高效。

同时，针对国内生态，OpenClaw 创始人 Peter Steinberger 与火山引擎联合上线的 ClawHub 中国镜像站（mirror-cn.clawhub.com）也解决了 Skills 组件拉取慢、丢包率高的网络痛点，进一步降低了国内开发者构建 Agent 的网络摩擦力。

Seedance 2.0：用合规护城河锁住视频生成算力

视频多模态是另一个吞吐巨兽。同一时间开放 API 公测的 Seedance 2.0，除了在生成质量上逼近行业 SOTA 外，其最大的工程亮点在于构建了企业级的“安全底座”。

对于商业级应用而言，最大的阻力并非参数规模，而是风控。Seedance 2.0 在模型推理层前置了严苛的合规校验管线，从输入素材的特征提取审查，到渲染阶段的肖像权阻断，再到输出结果的版权比对。这种在 API 层面直接“焊死”安全门的做法，彻底打消了企业在将 AI 视频生成接入品牌广告、电商分发等敏感业务时的法务顾虑。

算力刺客：Token 经济的“按呼吸计费”时代

英伟达掌门人黄仁勋近期给行业抛出了一个论断：至 2027 年，全球 AI 计算需求将飙升至万亿美元规模。在这个语境下，数据中心已不再是传统意义上的存储介质，而是全速运转的“Token 炼丹炉”，Token 本身正在蜕变为数字世界的基础货币。

这就引出了一个非常现实的商业拷问：算力成本的最终承担者是谁？

随着应用端从“买断制软件”向“按 Token 计费（Pay-as-you-go）”迁徙，基础算力的供需杠杆正在失衡，全球算力涨价潮已经蔓延。

上个月，智谱 API 定价体系大幅上调，其中 GLM-5-Turbo 涨幅 20%，Coding 接口海外调价超 100%；紧接着，阿里云与百度智能云双双宣布算力与存储产品价格上调（5%至30%不等）；腾讯云的智能体开发平台甚至出现了数倍的计费涨幅。海外方面，AWS 的机器学习实例与 Google Cloud 的数据流转费用也都在近期悄然拉升。

这种反常的集体调价背后，是 Agent 高并发请求对 GPU 算力池、电力以及散热系统的极限施压。

与可以囤积居奇的加密货币不同，大模型的 Token 具备“即时消耗”属性，它更像是一种高密度的能源网络。在 AI 时代，谁掌握了底层基础设施的调度权与 Token 产能，谁就扼住了整条产业链的咽喉。