文章标题
小米大模型API永久降价99%,推理成本进入“白菜价”时代
文章正文
继DeepSeek宣布全系模型永久降价后,国产大模型价格战再掀高潮。5月27日凌晨,小米正式发布MiMo-V2.5系列API调价公告:最高降幅达99%,且全面取消输入长度限制;同步优化Token Plan计费体系——相同套餐价格下,可用Token总量提升至原方案的5–8倍;所有在有效期内的已购用户,自当日0点起自动按新规则重置配额。
小米创始人雷军随后在微博转发该消息,引发行业广泛关注。
国产模型价格持续下探,对比海外优势显著
根据官方披露,MiMo-V2.5-Pro调整后定价如下:
- 缓存命中输入:0.025元/百万tokens
- 缓存未命中输入:3元/百万tokens
- 输出:6元/百万tokens
这一价格与几天前发布的DeepSeek-V4-Pro完全一致,标志着国内头部厂商在推理成本控制上已达成技术共识。
今年以来,以Kimi、Qwen、GLM、MiniMax及小米为代表的大模型厂商密集下调API价格,单位token成本快速滑向“白菜价”区间:
| 模型 | 缓存命中输入(元/百万) | 缓存未命中输入(元/百万) | 输出(元/百万) |
|---|---|---|---|
| MiMo-V2.5-Pro | 0.025 | 3 | 6 |
| DeepSeek-V4-Pro | 0.025 | 3 | 6 |
| Kimi-K2.6 | 1.1 | 6.5 | 27 |
| Qwen-Max | 2.5 | 8 | 16 |
| GLM-4-Flash | 0.5 | 4 | 8 |
相较之下,海外主流闭源模型仍维持高位定价:
- MiMo-V2.5-Pro的输入价格仅为Claude Opus-4.7的1/36,
- 输出价格更是低至其1/90。
如此悬殊的价格差,已催生跨境使用现象——部分海外开发者正通过代理或合作渠道接入国产模型服务,形成罕见的“反向代购”趋势。
成本悖论:硬件与云服务涨价,token却暴跌
值得注意的是,这场降价潮发生在一个极具反差的背景下:AI底层基础设施正经历全面提价。
全球范围内,GPU算力、云服务、高性能存储等核心资源价格持续攀升,彻底打破云计算领域“二十年只降不升”的历史惯例:
- 阿里云、腾讯云、百度智能云相继上调AI算力产品价格,涨幅为5%–34%;
- 英伟达H100 GPU年租赁成本同比上涨近40%;
- 腾讯云部分AI推理实例服务涨幅高达400%;
- AWS、Google Cloud等国际云厂商亦同步跟进调价。
上游成本飙升,下游模型却逆势降价——利润从何而来?
答案在于推理效率的结构性跃迁。
当前大模型API的成本重心,已从早期的“训练+参数存储”,转向更关键的“实时推理”环节。随着模型蒸馏、量化、稀疏化等技术成熟,训练成本被大幅摊薄;而真正的瓶颈与开销,集中于KV Cache管理、内存带宽利用与集群调度效率。
KV Cache是模型处理长上下文时的关键机制,可理解为对历史对话的“显存级记忆”。上下文越长,缓存体积越大,显存占用呈指数增长——这也是许多长文本模型定价高昂的本质原因,并非源于更强能力,而是更高缓存成本。
小米此次技术升级的核心,正是围绕KV Cache压缩、动态分块加载与跨层缓存复用展开;DeepSeek V4系列实现同等低价,同样依赖其自研推理框架DeepSpeed-Inference在缓存系统与集群调度层面的深度优化。
简言之:硬件变贵了,但每token消耗的算力下降得更快。
此外,“薄利多销”逻辑在此场景中高度成立:价格门槛降低后,开发者不再因成本顾虑而压缩调用量,Agent架构、多轮对话、长文档解析等高价值应用场景的请求频次将呈指数级上升,带动整体业务规模与生态繁荣。
中美大模型竞争新格局:性价比正在重塑战场规则
当中国大模型的单价仅为美国顶尖模型的十分之一,而综合能力已达其80%–90%,一个现实问题浮现:这场技术竞赛,中国是否还有输的理由?
过去两年,业界普遍担忧中国在基础模型能力上存在“半代差距”——从GPT-4到Claude 3.5,再到传闻中的GPT-5.5,每次迭代似乎都在拉大技术鸿沟。这种焦虑真实存在。
但价格所释放的竞争力,同样是不可忽视的客观力量。
企业在选择AI基础设施时,决策依据从来不是“谁最强”,而是“谁最适配、最可控、最具长期性价比”。当token成本趋近于零,开发者得以摆脱精打细算的束缚,在产品设计中大胆引入复杂AI逻辑,从而催生出差异化的应用范式与本土化生态。
国产大模型厂商正致力于将AI能力转化为新时代的“水电煤”——稳定、普惠、即取即用。
商业史反复验证:最终胜出者,往往不是技术参数最耀眼的那个,而是让技术真正下沉、普及、融入千行百业的那个。
中国大模型,已在通往这一目标的路上加速前行。