突发,小米降价99%,成价格屠夫!

0 阅读5分钟

文章标题

小米大模型API永久降价99%,推理成本进入“白菜价”时代

文章正文

继DeepSeek宣布全系模型永久降价后,国产大模型价格战再掀高潮。5月27日凌晨,小米正式发布MiMo-V2.5系列API调价公告:最高降幅达99%,且全面取消输入长度限制;同步优化Token Plan计费体系——相同套餐价格下,可用Token总量提升至原方案的5–8倍;所有在有效期内的已购用户,自当日0点起自动按新规则重置配额。

小米创始人雷军随后在微博转发该消息,引发行业广泛关注。

w700d1q75cms.jpg

国产模型价格持续下探,对比海外优势显著

根据官方披露,MiMo-V2.5-Pro调整后定价如下:

  • 缓存命中输入:0.025元/百万tokens
  • 缓存未命中输入:3元/百万tokens
  • 输出:6元/百万tokens

这一价格与几天前发布的DeepSeek-V4-Pro完全一致,标志着国内头部厂商在推理成本控制上已达成技术共识。

今年以来,以Kimi、Qwen、GLM、MiniMax及小米为代表的大模型厂商密集下调API价格,单位token成本快速滑向“白菜价”区间:

模型缓存命中输入(元/百万)缓存未命中输入(元/百万)输出(元/百万)
MiMo-V2.5-Pro0.02536
DeepSeek-V4-Pro0.02536
Kimi-K2.61.16.527
Qwen-Max2.5816
GLM-4-Flash0.548

相较之下,海外主流闭源模型仍维持高位定价:

  • MiMo-V2.5-Pro的输入价格仅为Claude Opus-4.7的1/36
  • 输出价格更是低至其1/90

如此悬殊的价格差,已催生跨境使用现象——部分海外开发者正通过代理或合作渠道接入国产模型服务,形成罕见的“反向代购”趋势。


成本悖论:硬件与云服务涨价,token却暴跌

值得注意的是,这场降价潮发生在一个极具反差的背景下:AI底层基础设施正经历全面提价

全球范围内,GPU算力、云服务、高性能存储等核心资源价格持续攀升,彻底打破云计算领域“二十年只降不升”的历史惯例:

  • 阿里云、腾讯云、百度智能云相继上调AI算力产品价格,涨幅为5%–34%
  • 英伟达H100 GPU年租赁成本同比上涨近40%
  • 腾讯云部分AI推理实例服务涨幅高达400%
  • AWS、Google Cloud等国际云厂商亦同步跟进调价。

上游成本飙升,下游模型却逆势降价——利润从何而来?

答案在于推理效率的结构性跃迁

当前大模型API的成本重心,已从早期的“训练+参数存储”,转向更关键的“实时推理”环节。随着模型蒸馏、量化、稀疏化等技术成熟,训练成本被大幅摊薄;而真正的瓶颈与开销,集中于KV Cache管理、内存带宽利用与集群调度效率

KV Cache是模型处理长上下文时的关键机制,可理解为对历史对话的“显存级记忆”。上下文越长,缓存体积越大,显存占用呈指数增长——这也是许多长文本模型定价高昂的本质原因,并非源于更强能力,而是更高缓存成本。

小米此次技术升级的核心,正是围绕KV Cache压缩、动态分块加载与跨层缓存复用展开;DeepSeek V4系列实现同等低价,同样依赖其自研推理框架DeepSpeed-Inference在缓存系统与集群调度层面的深度优化。

简言之:硬件变贵了,但每token消耗的算力下降得更快

此外,“薄利多销”逻辑在此场景中高度成立:价格门槛降低后,开发者不再因成本顾虑而压缩调用量,Agent架构、多轮对话、长文档解析等高价值应用场景的请求频次将呈指数级上升,带动整体业务规模与生态繁荣。


中美大模型竞争新格局:性价比正在重塑战场规则

当中国大模型的单价仅为美国顶尖模型的十分之一,而综合能力已达其80%–90%,一个现实问题浮现:这场技术竞赛,中国是否还有输的理由?

过去两年,业界普遍担忧中国在基础模型能力上存在“半代差距”——从GPT-4到Claude 3.5,再到传闻中的GPT-5.5,每次迭代似乎都在拉大技术鸿沟。这种焦虑真实存在。

但价格所释放的竞争力,同样是不可忽视的客观力量。

企业在选择AI基础设施时,决策依据从来不是“谁最强”,而是“谁最适配、最可控、最具长期性价比”。当token成本趋近于零,开发者得以摆脱精打细算的束缚,在产品设计中大胆引入复杂AI逻辑,从而催生出差异化的应用范式与本土化生态。

国产大模型厂商正致力于将AI能力转化为新时代的“水电煤”——稳定、普惠、即取即用

商业史反复验证:最终胜出者,往往不是技术参数最耀眼的那个,而是让技术真正下沉、普及、融入千行百业的那个。

中国大模型,已在通往这一目标的路上加速前行。