Alluxio AI 3.8发布:带来两项突破性新功能——加速对象存储写入与模型加载

0 阅读7分钟

3.8_副本.png 人工智能基础设施团队正面临全新的挑战:性能瓶颈早已不再局限于 GPU 算力。如今,更常见的限制因素,往往是数据和模型在存储系统中的传输速度——尤其是在以对象存储为主的云环境中。

无论是加载数十亿参数的推理模型,还是运行需要处理海量中间数据的工作流,存储访问一旦变慢,GPU 算力浪费、训练时间拉长、任务性能不稳定等问题便会立刻显现。

Alluxio AI 3.8 版本推出两项重大新功能,旨在消除现代 AI 工作中最棘手的两大瓶颈:

  1. Alluxio S3 写缓存:大幅降低对象存储写入延迟,提升写入密集型工作负载的性能;
  2. Safetensors 模型加载加速:实现接近本地 NVMe 的模型权重加载吞吐量。

接下来,我们将深入解析这两项新功能。

1.Alluxio S3 写缓存

如今的 AI 与数据分析工作流,早已不只是以读为主。

它们正越来越多地呈现“读写混合”甚至“写密集”的特征,生成大量中间结果、嵌入向量、日志与转换后的数据集。在这样的场景中,写性能与读吞吐同样关键。

遗憾的是,Amazon S3 这类后端对象存储系统,并非为大规模并行场景下的超低延迟写入而设计。写入延迟、请求开销、突发处理限制,往往成为端到端运行时的核心瓶颈。

为什么写入会成为瓶颈

在写入密集型工作负载中,对象存储存在一些难以规避的短板:

  1. 单次请求延迟高(小对象尤其明显);
  2. 突发流量时吞吐量波动大;
  3. 写后即读(read-after-write)场景中,数据一致性延迟明显。

随着越来越多 AI 工作负载依赖快速循环迭代与持续工作流,这些短板正成为拖慢整体效率的关键因素。

Alluxio AI 3.8 新功能

Alluxio AI 3.8 引入的 Alluxio S3 写缓存,新增了用户可配置的写回(write-back)模式,突破了之前仅支持穿透写的限制。

通过这些写回模式,应用可直接写入本地计算节点的 NVMe 存储,而数据持久化到 S3 的过程则可以:

  1. 在后台异步完成;
  2. 或完全跳过(适用于无需持久化的场景)。

这实际上将应用性能与对象存储延迟解耦开来。

显著降低PUT延迟(提升5-8倍)

效果是立竿见影且可量化的。针对小对象写入(10KB PUT):

  1. S3 延迟:30-40 毫秒
  2. Alluxio S3 写缓存延迟:4-6 毫秒

PUT 延迟降低了 5-8 倍!

对于生成数百万小文件(如元数据、特征分片、嵌入输出等)的工作负载,这一优化足以彻底改变工作流的整体性能表现。

大文件写入吞吐量高达 6+ GB/s(单Worker)

写缓存在大对象写入场景下同样表现优异。 针对大对象写入(10MB PUT 操作),Alluxio S3 写缓存可实现:

  1. 单 Worker 吞吐量达到 6+ GB/s;
  2. 延迟低且稳定;
  3. 随 Worker 数量增加,吞吐量接近线性扩展。

这意味着,AI 团队只需横向扩展 Alluxio Worker,即可线性提升写入吞吐量,不再受限于对象存储的写入路径。

带来的实际收益

Alluxio S3 写缓存为现代 AI 与数据分析工作负载带来的核心价值包括:

  1. ETL 与数据转换工作流更高效;
  2. 写入密集型的流式与批处理任务性能大幅提升;
  3. 迭代式 AI 工作流中“写后即读”延迟显著降低;
  4. 突发请求处理工作流更稳定。

图片1.png Alluxio S3 写缓存让基于对象存储的架构,拥有了接近 NVMe 的写入体验。

了解更多:S3写缓存技术深度解析

如果你想了解该功能背后的技术动因与架构设计,欢迎阅读这篇由 Alluxio 技术副总裁范斌撰写的技术文章

  1. 写入密集型工作负载为何会带来对象存储的写入路径瓶颈;
  2. S3 PUT 延迟为何在大规模场景下会成为主导因素;
  3. Alluxio S3写缓存如何在实践中改变写入及“写后即读”的延迟模型。

2. Safetensors 模型加载加速

大模型加载已成为 AI 工作流中最容易被忽视的隐性成本之一。

之所以容易被忽略,是因为模型加载发生在训练或推理任务“真正开始之前”——但它往往耗时数分钟,并且在集群重启、任务重跑时反复发生。在分布式环境中,模型加载慢,会导致整批 GPU 节点空转等待,迟迟无法投入工作。

为什么 Safetensors 如此重要?

Safetensors 是由 Hugging Face 推出的开源模型格式,专门用于存储机器学习模型权重。它迅速成为众多机构的首选,核心原因是解决了传统基于 pickle 方式加载模型的两大痛点:

  1. 性能:Safetensors 支持快速、零拷贝、延迟加载;
  2. 安全性:杜绝加载时执行任意代码,模型共享更安全。

简言之,Safetensors 既快又安全——这正是大规模 AI 场景所需要的。

Alluxio AI 3.8 新增功能

Alluxio AI 3.8 引入 Safetensors 模型加载加速功能,让基于 Safetensors 格式的大模型在云端也能实现快速、稳定的加载,即使原始模型存放在对象存储中。

借助这一能力,Alluxio AI 可实现接近本地 NVMe 的吞吐量,模型加载速度比 AWS FSx Lustre 等主流云存储方案快 15–20 倍。

基准测试:比 AWS FSx Lustre 快 18 倍

在内部基准测试中,我们使用 DeepSeek-R1-Distill-Llama-70B 模型(约 30GB),对比从云存储环境加载模型的时间:

  1. Alluxio AI:49秒;
  2. AWS FSx Lustre:900秒。

模型加载速度提升了 18 倍,堪称突破性进展。

这一加速效果,对于需要频繁扩缩容的推理集群、经常重启任务的训练流程,或任何需要跨多节点重复加载模型的环境,意义尤为重大。

带来的实际收益

借助 Safetensors 模型加载加速功能,AI 团队可以实现:

  1. 推理部署的“冷启动”速度加快;
  2. 训练任务启动与重启周期大幅加快;
  3. 通过消除模型初始化阶段的空转等待时间,显著提升 GPU 利用率;
  4. 跨云环境性能更可预测、更稳定。

Alluxio AI 3.8 让基于 Safetensors 的模型加载,不仅更快,而且真正具备了大规模云原生能力。

3.总结:Alluxio AI 3.8 消除两大存储瓶颈

Alluxio AI 3.8 的发布,正是为应对现代 AI 基础设施的真实挑战而设计:在海量规模的云端模型与数据工作流中,存储延迟和吞吐量直接导致 GPU 资源浪费与创新速度放缓。

此次版本带来两项突破性新功能:

Alluxio S3 写缓存

  1. 新增可配置写回模式,释放本地 NVMe 性能;
  2. 小对象 PUT 延迟从 30–40 毫秒降至 4–6 毫秒;
  3. 大对象写入单 Worker 吞吐量超 6 GB/s,近线性扩展。

Safetensors 模型加载加速

  1. 实现接近本地 NVMe 吞吐量的 Safetensors 模型加载;
  2. 比主流云存储方案快 15–20 倍;
  3. 基准测试:49 秒 vs 900 秒(比 AWS FSx Lustre 快 18 倍)。

这两项功能共同带来:更快的训练启动、更快的推理部署、更高效的工作流、更高的 GPU 利用率——同时始终保持对象存储作为核心记录系统。

Alluxio AI 3.8,让云端 AI 基础设施更快、更稳、更具扩展性。