技术科普-存算分离摘要本文简单介绍存算分离的发展脉络和逻辑，点明了存算分离背后的本质，同时也谈到了存储涨价的原因和网络

摘要

本文简单介绍存算分离的发展脉络和逻辑，点明了存算分离背后的本质，同时也谈到了存储涨价的原因和网络技术发展的内在逻辑。

口水版存算分离

用“开餐厅”和“点外卖”的故事，来聊聊“存算分离”是怎么从“苦哈哈的捆绑销售”变成现在的“自由搭配”的。

你可以把数据想象成食材，把计算想象成厨师。

第一阶段：前店后厂，绑死在一起（存算一体 1.0）

时间：几十年前，早期电脑时代。场景：一家传统的小面馆。

怎么运作？厨师（计算）就在灶台边，食材（存储）就堆在灶台底下的柜子里。
- 优点：厨师伸手就能拿到菜，不用跑远，炒菜极快。
- 缺点（痛点）：
  1. 想多招个厨师？不行！因为灶台底下的柜子已经塞满了，没地方放新食材了。你为了多雇一个人，被迫得把整个店面扩大一倍，买一堆你用不到的冰柜。
  2. 想多存点菜？不行！因为店里只有两个灶台，你买了一吨白菜堆在过道里，也没人炒得过来。
- 结局：要么撑死（存储爆满），要么饿死（算力不够），想调整一下？得把房子拆了重建，太麻烦！

第二阶段：大仓库模式，还是有点僵（大数据早期）

时间：2010年左右，互联网刚爆发。场景：大型连锁食堂（比如早期的 Hadoop）。

怎么运作？为了处理海量数据，大家搞了个策略：“数据在哪，人就去哪”。每个小隔间里都既有厨师又有食材。如果要算个大数，就把任务分给几百个小隔间同时干。
新问题：虽然能干活了，但依然绑死。
- 老板说：“最近双11订单多，我要加100个厨师！”
- 工头说：“老板，加厨师可以，但公司规定，每加一个厨师，必须配套买一个巨大的冰柜和一堆食材塞给他，哪怕他根本用不完。”
- 结果：为了应付几天的流量高峰，公司买了一堆永远吃灰的冰柜（存储资源浪费），花了很多冤枉钱。

第三阶段：中央大冷库 + 流动厨师团（存算分离 2.0）

时间：2016年以后，云计算成熟（Snowflake 等带头大哥出现）。场景：现代化的“云厨房”。

这时候，网络速度变快了（像修了高速公路），运费（带宽成本）变得很便宜。于是革命发生了：

建一个超级中央冷库（对象存储，如 AWS S3、阿里云 OSS）：
- 这里专门放食材（数据）。
- 特点：极其便宜、无限大、永远不坏。不管你有1吨菜还是1亿吨菜，只管往里扔，按量付费。
- 关键：这里没有厨师，只存货。
组建流动的厨师团（计算集群）：
- 厨师们（计算节点）不再拥有自己的冰柜。他们空着手上班。
- 干活时：接到单子，厨师通过“高速公路”（高速网络）从中央冷库把菜取出来，炒完再送回去（或者直接把结果端给客人）。
- 下班时：厨师团直接解散回家！公司不用养闲人。

爽在哪里？（核心优势）
- 弹性无敌：
  - 平时没人点餐？只留1个厨师值班，省钱！
  - 双11爆单？一键呼叫1000个厨师瞬间上线，炒完即走。不需要买1000个冰柜！
- 数据共享：
  - 以前，做报表的团队和做推荐的团队，得把数据拷贝两份，各存各的。
  - 现在，同一堆菜放在中央冷库，A团队派厨师去炒“红烧肉”，B团队派厨师去炒“肉片汤”。数据不用搬来搬去，也不会有版本冲突。
- 故障不怕：
  - 某个厨师生病了（服务器坏了）？没关系，换个新厨师来，直接从冷库拿菜接着干，数据一点没丢（因为菜在冷库，不在厨师口袋里）。

第四阶段：现在的玩法（2024-2026，向量数据库时代）

场景：不仅是炒菜，还要搞“超级大脑”（AI和大模型）。

现在的Milvus这类向量数据库，就是典型的“第四代云厨房”：

食材变了：以前存的是文本数字，现在存的是海量的图片、视频、语音转化成的“向量”（就像把全世界所有的菜都切成了分子料理，体积巨大）。
玩法升级：
- 存：把这些庞大的“分子料理”全扔进超便宜的云端对象存储（冷库）。
- 算：用昂贵的显卡（GPU）当厨师。因为显卡太贵了，绝对不能让它闲着去管存硬盘的事！
- 效果：你需要搜图时，瞬间调动一堆高端显卡厨师，从冷库里抓取数据，毫秒级给你找出相似的图片。搜完了，显卡厨师释放回去干别的事（比如去训练模型），绝不浪费一秒钟。

一句话总结

存算一体（旧时代）：买手机送话费，捆绑销售。想升级内存？对不起，请顺便换个更贵的处理器，哪怕你不需要。
存算分离（新时代）：就像网盘 + 任何设备。
- 你的照片（数据）存在云端（网盘），无限扩容，便宜安全。
- 你想看照片时，用手机、平板、电脑（计算）随时登录去看。
- 手机坏了？换个新手机登录，照片还在；想处理照片？租台高性能电脑处理完就退租。
- 各司其职，互不拖累，按需付费。

这就是“存算分离”从“苦命鸳鸯”变成“最佳搭档”的故事！

透析存算分离的本质

说白了，现在的新阶段是，存储便宜了，算力成瓶颈了，在这个阶段，存储已经满足了很多场景的要求，但是算力不是，算力的需求还在膨胀。

我们再稍微深化一下，看看这个逻辑是如何重塑整个技术界的：

1. “存储便宜了” -> 数据变成了“白菜价”的资产

现状：随着硬盘技术（大容量机械盘、高密度闪存）和对象存储（如 AWS S3、阿里云 OSS）的成熟，存储每 GB 的成本已经降到了极低的地步（甚至可以说是“地板价”）。
结果：企业不再心疼“多存点”。
- 以前：为了省空间，要疯狂做数据清洗、压缩、删日志，“只存有用的”。
- 现在：“先存下来再说”。原始日志、全量视频、海量向量，统统扔进对象存储。数据成了“自来水”，随取随用，囤积成本几乎可以忽略不计。
- 结论：存储不再是瓶颈，它成了一个无限大的、廉价的“数据湖”。

2. “算力成瓶颈了” -> 算力变成了“黄金价”的资源

现状：
- 需求爆炸：大模型（LLM）、实时推荐、复杂分析、向量检索，这些应用对计算的要求是指数级增长的。特别是 AI 时代，一次推理或训练可能需要成千上万张昂贵的 GPU。
- 硬件昂贵：高端芯片（如 NVIDIA H100/B200）不仅贵，还缺货。
- 能耗巨大：跑算力就是烧钱（电费 + 硬件折旧）。
结果：算力成了最宝贵的资源。
- 如果采用“存算一体”，为了扩容存储而被迫购买大量闲置的算力芯片，那简直是暴殄天物。
- 如果算力被低速的磁盘 I/O 拖慢，那就是让法拉利在泥地里跑。
- 结论：算力必须极致专用、极致弹性。需要时瞬间拉满，不需要时立刻释放，绝不能浪费一秒钟。

3. “存算分离”是解决这个矛盾的唯一解

正是因为存储过剩而算力稀缺，架构必须发生根本性改变：

把“廉价”的留给存储：让数据安安静静地躺在最便宜的存储介质里（对象存储），不用管它怎么被计算，只要保证不丢、便宜就行。
把“昂贵”的留给计算：

让昂贵的 CPU/GPU 集群变成无状态的“雇佣兵”。
- 它们不背硬盘包袱。
- 它们通过高速网络（现在的网络带宽也便宜了）去“吸食”存储里的数据。
- 核心逻辑：让昂贵的算力100% 的时间都在做计算，而不是在等待磁盘读写，或者在管理数据存储。

举个生动的例子对比：

旧模式（存算一体）：你雇了一个诺贝尔奖得主（昂贵算力）来做饭。为了让他有菜炒，你被迫给他配了一个巨大的、笨重的私家菜园（存储）。
- 问题：当他没菜炒的时候，他得自己去菜园除草、施肥（维护存储），或者你就得养着一大片荒废的菜园等着他用。 诺贝尔奖得主的时间被浪费了！
新模式（存算分离）：你把所有的菜都放在一个超大型的、自动化的公共冷库里（廉价存储，按斤收费，极便宜）。当你需要做饭时，你临时雇一群诺贝尔奖得主（昂贵算力，按秒付费）。
- 操作：他们空手走进厨房，从冷库极速调菜，专心致志地炒菜（纯计算），炒完立刻走人。
- 收益：诺贝尔奖得主每一秒都在创造高价值，没有一秒钟浪费在种菜或看管仓库上。冷库虽然大，但因为它便宜，堆满了也不心疼。

总结

现在的阶段，本质上是一场“资源配比”的革命。

存储已经从“稀缺资源”变成了“基础设施”（像空气和水一样，充足且便宜）。
算力已经从“通用资源”变成了“战略资源”（像石油和黄金一样，稀缺且昂贵）。

存算分离，就是为了保护昂贵的算力不被廉价的存储拖累，让两者各自按照自己的经济规律（存储求量大价廉，算力求高效弹性）去发展。这也是为什么像 Milvus 这样的现代数据库，必须把向量数据扔进对象存储，而让计算节点轻装上阵的原因。

存储的涨价

问：最近这一年，存储也在疯狂涨价，这又是为什么

答：虽然长期来看存储成本是下降的，但最近这一年（2025下半年到2026年初），存储市场不仅没降价，反而迎来了史无前例的“超级涨价周期”。

根据最新的市场数据（截至2026年3月），DRAM（内存）和NAND（闪存/硬盘核心颗粒）的价格在过去两个季度里暴涨了40%-90%，部分高端产品甚至翻了几倍。这看起来似乎和我们之前说的“存储越来越便宜”的大趋势矛盾，但其实这是短期供需极端失衡造成的“完美风暴”。

简单来说，这次涨价不是因为技术退步了，而是因为AI太火了，把存储的“产能”给抢光了。

以下是导致这次疯狂涨价的四个核心原因：

1. AI服务器的“吞噬效应” (HBM挤占产能)

这是最根本的原因。

现象：以前的服务器主要用普通内存（DDR4/DDR5），现在的AI服务器（跑大模型的）需要HBM（高带宽内存）。
问题：HBM和普通内存是在同一条晶圆产线上生产的，而且HBM的制造工艺更复杂、面积更大。
- 生产1GB的HBM，消耗的晶圆产能可能是生产普通内存的3-5倍。
- 三星、海力士、美光这三大巨头，为了赚AI的高利润，把绝大部分先进产能都切去生产HBM了。
结果：普通内存（DDR4/DDR5）和闪存（NAND）的产能被严重挤压。不是造不出来，而是工厂都在忙着造HBM，没空造普通的了。 这导致通用存储芯片瞬间短缺，价格自然飙升。

2. “单台需求量”的指数级爆炸

对比：
- 一台普通服务器：可能需要 64GB - 256GB 内存。
- 一台AI服务器（如搭载8个GPU的节点）：可能需要 2TB - 4TB 甚至更多的内存，以及超大容量的企业级SSD。
冲击：AI服务器的出货量虽然在总服务器里占比还不算特别大，但单台吃掉的存储资源是普通服务器的10倍以上。这点增量直接吃掉了全球大量的新增产能，导致留给手机、PC、普通云服务的份额大幅减少。

3. 厂商的“饥饿营销”与产能控制

背景：在2023-2024年，存储市场曾经历过严重的供过于求，价格跌穿成本线，三大原厂（三星、海力士、美光）亏得很惨。
策略转变：从2025年开始，这些巨头达成了默契：不再盲目扩产，而是严格控制产能，甚至主动减产，以推高价格回血。
现状：面对AI带来的需求爆发，他们并没有立刻大规模扩建普通存储的产线（因为建厂需要2-3年，且风险大），而是选择优先保利润，让价格飞一会儿。这种“卖方市场”让下游厂商毫无议价能力。

4. 库存见底 + 需求复苏的“共振”

库存空了：经过前两年的去库存，下游（手机厂、电脑厂、云厂商）的仓库几乎是空的。
需求醒了：
- AI手机/AI PC：2025-2026年推出的新设备，为了跑端侧大模型，起步内存直接从8G/16G跳到了24G/32G，存储空间也普遍要求1TB起步。
- 数据中心：除了AI，传统的云计算需求也在复苏。
结果：一边是产能被HBM挤占，一边是大家同时急着补货，供需缺口瞬间拉大，价格只能直线上涨。

这对“存算分离”架构有什么影响？

存储这么贵，存算分离还划算吗？

答案是：依然划算，但逻辑变了。

对象存储（冷数据）依然便宜：
- 这次涨价的主要是高性能芯片（DRAM和企业级高速NAND SSD）。
- 用于存算分离架构中“底层存储池”的大容量机械硬盘（HDD）或者高密度QLC/TLC对象存储，虽然也有波及，但涨幅远没有内存那么夸张。
- 结论：把不常用的海量数据扔进廉价的对象存储（Cold Storage），依然是省钱的王道。
算力侧的成本压力更大：
- 由于内存（DRAM）价格暴涨，计算节点的成本显著上升。
- 这反而更加凸显了存算分离的优势：
  - 在存算一体架构下，你为了扩容存储被迫买的内存，现在贵得离谱，简直是浪费。
  - 在存算分离架构下，你可以精确控制计算节点的内存大小，只给正在干活的计算节点配昂贵的高速内存，干完活就释放。如果让计算节点闲着还占着大量昂贵内存，那才是真的“败家”。
新的优化方向：分级存储更重要
- 以前可能随便把数据放SSD里。
- 现在因为高速存储太贵，架构师会更激进地做数据分层：
  - 热数据（正在计算的）：放在昂贵的DRAM/高速SSD里。
  - 温/冷数据（海量向量、历史日志）：坚决扔进最便宜的HDD或归档存储里。
- Milvus等数据库的应对：它们会进一步优化索引结构，让计算节点能用更少的内存（Cache）去检索更多的磁盘数据，以抵消内存涨价带来的成本压力。

总结

这一轮存储涨价是AI引发的结构性短缺，是短期现象（预计会持续到2027年，直到新产线建成）。

它并没有推翻“存储长期变便宜”的趋势，也没有否定“存算分离”的架构价值。相反，因为内存变得太贵，我们更需要通过存算分离，把昂贵的内存资源“好钢用在刀刃上”，绝不浪费一分一毫。

这就好比油价突然暴涨，你不会因此就不开车了，而是会更精打细算，只在必须出门时才开快车，平时把车停在家里（数据存冷库），绝不怠速空转（计算节点空占内存）。

网络技术再度重要

网络在存算分离架构中，已经从过去的“配角”（只要能通就行），一跃成为了决定生死的“大动脉”和“生命线”。

如果把“存算分离”比作刚才说的“中央冷库 + 流动厨师”模式：

存储是冷库。
计算是厨师。
网络就是连接冷库和厨房的高速公路。

在存算一体时代，厨师伸手就能拿到菜（数据在本地磁盘），不需要路。

但在存算分离时代，所有的菜都要靠这条路运过来。如果这条路堵了、窄了、或者红绿灯太多（延迟高），哪怕你请了全世界最顶级的厨师（最强算力），他也只能干等着，整个系统就会瞬间瘫痪。

这就是为什么现在网络变得如此重要，甚至出现了“网络即算力”的说法。以下是几个关键维度的深度解析：

1. 带宽（Bandwidth）：路得修得足够宽

挑战：以前处理1GB数据，可能只需要读一次；现在搞大模型训练或向量检索，计算节点需要反复、海量地从存储端拉取数据。
- 如果网络带宽只有10Gbps，而计算节点的处理速度能消耗100Gbps的数据，那90%的昂贵算力都在空转等待数据。这就叫“网络瓶颈”。
现状：
- 为了匹配现在的算力，数据中心内部网络正在从25G/100G疯狂向400G、800G甚至1.6T演进。
- 光模块（把电信号转光信号的器件）成了比显卡还紧缺的硬通货。没有高速光模块，存算分离就是空中楼阁。

2. 延迟（Latency）：红绿灯要少，反应要快

挑战：对于实时性要求高的场景（比如你问Milvus“这张图相似吗”，要求毫秒级返回），数据在网络上传输的时间（延迟）必须极短。
- 如果网络延迟是1毫秒，对于高频交易或实时推荐来说，这1毫秒就是生与死的距离。
- 传统的TCP/IP协议栈太“重”了，就像货车每过一个路口都要停车填表、检查证件，效率太低。
解决方案：RDMA(远程直接内存访问) 技术成为标配。
- 它允许计算节点的内存直接“隔空取物”，直接从存储节点的内存里拿数据，完全绕过操作系统和CPU。
- 这就好比给货车开了专用绿色通道，不用停车，直接飞过去。这是存算分离高性能的关键。

3. 稳定性与无损网络：不能堵车，更不能翻车

挑战：在存算一体时，磁盘坏了也就是那一台机器的事。但在存算分离时，网络一旦抖动（丢包），成千上万个计算节点同时拿不到数据，整个集群的性能会断崖式下跌。
要求：现在的云网络必须做到“无损网络”（Lossless Network）。
- 通过复杂的流控技术（如PFC, ECN），确保在网络拥塞时，数据包一个都不丢，只是稍微慢点排队，绝不能丢弃重传（重传会带来巨大的延迟惩罚）。
- 这对网络交换机和网卡的要求极高，普通的家用或企业级网络设备根本扛不住这种压力。

4. 成本结构的转移：钱花哪儿了？

这是一个非常有趣的经济账变化：

过去：钱主要花在买硬盘和买服务器上。网络只要能用就行，占预算很小。
现在（存算分离+AI时代）：
- 存储变便宜了（相对）。
- 算力虽然贵，但可以通过弹性伸缩优化。
- 网络成本飙升！为了支撑存算分离，你需要购买昂贵的高速交换机、高端光模块、智能网卡（SmartNIC）。
- 在很多超大规模数据中心，网络设备的投资占比已经超过了存储，甚至在逼近计算设备。

5. 新的架构趋势：以网络为中心 (Network-Centric)

因为网络太重要了，现在的架构设计思路都变了：

计算下沉到网络：现在的智能网卡（DPU/IPU）本身就有强大的计算能力。它们可以在数据传输的路上就完成解压、加密、甚至简单的过滤操作，减轻主计算节点的压力。
存算网一体化调度：以前的调度器只管“哪个CPU空闲”，现在的调度器（如Kubernetes的高级插件）必须懂网络拓扑。它会优先把计算任务调度到离数据网络路径最短、带宽最充裕的节点上，而不是随便找个空闲节点。

总结：网络是存算分离的“隐形天花板”

你可以这样理解三者的关系：

存储决定了你能装多少水（数据容量）。
计算决定了你能多快把水变成冰（处理能力）。
网络决定了水管有多粗、水流有多快。

在存算分离架构下，水管的粗细（网络带宽）如果你建了一个超级冷库（海量存储），雇了一群超人厨师（超强算力），却只修了一条乡间小路（低速网络）来运菜，那这个系统不仅跑不起来，甚至比老式的存算一体还要慢、还要贵。

所以，这一轮技术浪潮中，谁掌握了高速、低延迟、无损的网络技术，谁才能真正玩转存算分离。这也是为什么像NVIDIA（收购Mellanox）、Broadcom、以及华为等公司在网络设备领域厮杀得如此激烈的原因。