突发，小米降价99%，成价格屠夫！文章标题小米大模型API永久降价99%，推理成本进入“白菜价”时代文章正文继De

文章标题

小米大模型API永久降价99%，推理成本进入“白菜价”时代

文章正文

继DeepSeek宣布全系模型永久降价后，国产大模型价格战再掀高潮。5月27日凌晨，小米正式发布MiMo-V2.5系列API调价公告：最高降幅达99%，且全面取消输入长度限制；同步优化Token Plan计费体系——相同套餐价格下，可用Token总量提升至原方案的5–8倍；所有在有效期内的已购用户，自当日0点起自动按新规则重置配额。

小米创始人雷军随后在微博转发该消息，引发行业广泛关注。

国产模型价格持续下探，对比海外优势显著

根据官方披露，MiMo-V2.5-Pro调整后定价如下：

缓存命中输入：0.025元/百万tokens
缓存未命中输入：3元/百万tokens
输出：6元/百万tokens

这一价格与几天前发布的DeepSeek-V4-Pro完全一致，标志着国内头部厂商在推理成本控制上已达成技术共识。

今年以来，以Kimi、Qwen、GLM、MiniMax及小米为代表的大模型厂商密集下调API价格，单位token成本快速滑向“白菜价”区间：

模型	缓存命中输入（元/百万）	缓存未命中输入（元/百万）	输出（元/百万）
MiMo-V2.5-Pro	0.025	3	6
DeepSeek-V4-Pro	0.025	3	6
Kimi-K2.6	1.1	6.5	27
Qwen-Max	2.5	8	16
GLM-4-Flash	0.5	4	8

相较之下，海外主流闭源模型仍维持高位定价：

MiMo-V2.5-Pro的输入价格仅为Claude Opus-4.7的1/36，
输出价格更是低至其1/90。

如此悬殊的价格差，已催生跨境使用现象——部分海外开发者正通过代理或合作渠道接入国产模型服务，形成罕见的“反向代购”趋势。

成本悖论：硬件与云服务涨价，token却暴跌

值得注意的是，这场降价潮发生在一个极具反差的背景下：AI底层基础设施正经历全面提价。

全球范围内，GPU算力、云服务、高性能存储等核心资源价格持续攀升，彻底打破云计算领域“二十年只降不升”的历史惯例：

阿里云、腾讯云、百度智能云相继上调AI算力产品价格，涨幅为5%–34%；
英伟达H100 GPU年租赁成本同比上涨近40%；
腾讯云部分AI推理实例服务涨幅高达400%；
AWS、Google Cloud等国际云厂商亦同步跟进调价。

上游成本飙升，下游模型却逆势降价——利润从何而来？

答案在于推理效率的结构性跃迁。

当前大模型API的成本重心，已从早期的“训练+参数存储”，转向更关键的“实时推理”环节。随着模型蒸馏、量化、稀疏化等技术成熟，训练成本被大幅摊薄；而真正的瓶颈与开销，集中于KV Cache管理、内存带宽利用与集群调度效率。

KV Cache是模型处理长上下文时的关键机制，可理解为对历史对话的“显存级记忆”。上下文越长，缓存体积越大，显存占用呈指数增长——这也是许多长文本模型定价高昂的本质原因，并非源于更强能力，而是更高缓存成本。

小米此次技术升级的核心，正是围绕KV Cache压缩、动态分块加载与跨层缓存复用展开；DeepSeek V4系列实现同等低价，同样依赖其自研推理框架DeepSpeed-Inference在缓存系统与集群调度层面的深度优化。

简言之：硬件变贵了，但每token消耗的算力下降得更快。

此外，“薄利多销”逻辑在此场景中高度成立：价格门槛降低后，开发者不再因成本顾虑而压缩调用量，Agent架构、多轮对话、长文档解析等高价值应用场景的请求频次将呈指数级上升，带动整体业务规模与生态繁荣。

中美大模型竞争新格局：性价比正在重塑战场规则

当中国大模型的单价仅为美国顶尖模型的十分之一，而综合能力已达其80%–90%，一个现实问题浮现：这场技术竞赛，中国是否还有输的理由？

过去两年，业界普遍担忧中国在基础模型能力上存在“半代差距”——从GPT-4到Claude 3.5，再到传闻中的GPT-5.5，每次迭代似乎都在拉大技术鸿沟。这种焦虑真实存在。

但价格所释放的竞争力，同样是不可忽视的客观力量。

企业在选择AI基础设施时，决策依据从来不是“谁最强”，而是“谁最适配、最可控、最具长期性价比”。当token成本趋近于零，开发者得以摆脱精打细算的束缚，在产品设计中大胆引入复杂AI逻辑，从而催生出差异化的应用范式与本土化生态。

国产大模型厂商正致力于将AI能力转化为新时代的“水电煤”——稳定、普惠、即取即用。

商业史反复验证：最终胜出者，往往不是技术参数最耀眼的那个，而是让技术真正下沉、普及、融入千行百业的那个。

中国大模型，已在通往这一目标的路上加速前行。