Alluxio AI 3.8发布：带来两项突破性新功能——加速对象存储写入与模型加载Alluxio AI 3.8 版本重

3.8_副本.png 人工智能基础设施团队正面临全新的挑战：性能瓶颈早已不再局限于 GPU 算力。如今，更常见的限制因素，往往是数据和模型在存储系统中的传输速度——尤其是在以对象存储为主的云环境中。

无论是加载数十亿参数的推理模型，还是运行需要处理海量中间数据的工作流，存储访问一旦变慢，GPU 算力浪费、训练时间拉长、任务性能不稳定等问题便会立刻显现。

Alluxio AI 3.8 版本推出两项重大新功能，旨在消除现代 AI 工作中最棘手的两大瓶颈：

Alluxio S3 写缓存：大幅降低对象存储写入延迟，提升写入密集型工作负载的性能；
Safetensors 模型加载加速：实现接近本地 NVMe 的模型权重加载吞吐量。

接下来，我们将深入解析这两项新功能。

1.Alluxio S3 写缓存

如今的 AI 与数据分析工作流，早已不只是以读为主。

它们正越来越多地呈现“读写混合”甚至“写密集”的特征，生成大量中间结果、嵌入向量、日志与转换后的数据集。在这样的场景中，写性能与读吞吐同样关键。

遗憾的是，Amazon S3 这类后端对象存储系统，并非为大规模并行场景下的超低延迟写入而设计。写入延迟、请求开销、突发处理限制，往往成为端到端运行时的核心瓶颈。

为什么写入会成为瓶颈

在写入密集型工作负载中，对象存储存在一些难以规避的短板：

单次请求延迟高（小对象尤其明显）；
突发流量时吞吐量波动大；
写后即读（read-after-write）场景中，数据一致性延迟明显。

随着越来越多 AI 工作负载依赖快速循环迭代与持续工作流，这些短板正成为拖慢整体效率的关键因素。

Alluxio AI 3.8 新功能

Alluxio AI 3.8 引入的 Alluxio S3 写缓存，新增了用户可配置的写回（write-back）模式，突破了之前仅支持穿透写的限制。

通过这些写回模式，应用可直接写入本地计算节点的 NVMe 存储，而数据持久化到 S3 的过程则可以：

在后台异步完成；
或完全跳过（适用于无需持久化的场景）。

这实际上将应用性能与对象存储延迟解耦开来。

显著降低PUT延迟（提升5-8倍）

效果是立竿见影且可量化的。针对小对象写入（10KB PUT）：

S3 延迟：30-40 毫秒
Alluxio S3 写缓存延迟：4-6 毫秒

PUT 延迟降低了 5-8 倍！

对于生成数百万小文件（如元数据、特征分片、嵌入输出等）的工作负载，这一优化足以彻底改变工作流的整体性能表现。

大文件写入吞吐量高达 6+ GB/s（单Worker）

写缓存在大对象写入场景下同样表现优异。针对大对象写入（10MB PUT 操作），Alluxio S3 写缓存可实现：

单 Worker 吞吐量达到 6+ GB/s；
延迟低且稳定；
随 Worker 数量增加，吞吐量接近线性扩展。

这意味着，AI 团队只需横向扩展 Alluxio Worker，即可线性提升写入吞吐量，不再受限于对象存储的写入路径。

带来的实际收益

Alluxio S3 写缓存为现代 AI 与数据分析工作负载带来的核心价值包括：

ETL 与数据转换工作流更高效；
写入密集型的流式与批处理任务性能大幅提升；
迭代式 AI 工作流中“写后即读”延迟显著降低；
突发请求处理工作流更稳定。

图片1.png Alluxio S3 写缓存让基于对象存储的架构，拥有了接近 NVMe 的写入体验。

了解更多：S3写缓存技术深度解析

如果你想了解该功能背后的技术动因与架构设计，欢迎阅读这篇由 Alluxio 技术副总裁范斌撰写的技术文章：

写入密集型工作负载为何会带来对象存储的写入路径瓶颈；
S3 PUT 延迟为何在大规模场景下会成为主导因素；
Alluxio S3写缓存如何在实践中改变写入及“写后即读”的延迟模型。

2. Safetensors 模型加载加速

大模型加载已成为 AI 工作流中最容易被忽视的隐性成本之一。

之所以容易被忽略，是因为模型加载发生在训练或推理任务“真正开始之前”——但它往往耗时数分钟，并且在集群重启、任务重跑时反复发生。在分布式环境中，模型加载慢，会导致整批 GPU 节点空转等待，迟迟无法投入工作。

为什么 Safetensors 如此重要？

Safetensors 是由 Hugging Face 推出的开源模型格式，专门用于存储机器学习模型权重。它迅速成为众多机构的首选，核心原因是解决了传统基于 pickle 方式加载模型的两大痛点：

性能：Safetensors 支持快速、零拷贝、延迟加载；
安全性：杜绝加载时执行任意代码，模型共享更安全。

简言之，Safetensors 既快又安全——这正是大规模 AI 场景所需要的。

Alluxio AI 3.8 新增功能

Alluxio AI 3.8 引入 Safetensors 模型加载加速功能，让基于 Safetensors 格式的大模型在云端也能实现快速、稳定的加载，即使原始模型存放在对象存储中。

借助这一能力，Alluxio AI 可实现接近本地 NVMe 的吞吐量，模型加载速度比 AWS FSx Lustre 等主流云存储方案快 15–20 倍。

基准测试：比 AWS FSx Lustre 快 18 倍

在内部基准测试中，我们使用 DeepSeek-R1-Distill-Llama-70B 模型（约 30GB），对比从云存储环境加载模型的时间：

Alluxio AI：49秒；
AWS FSx Lustre：900秒。

模型加载速度提升了 18 倍，堪称突破性进展。

这一加速效果，对于需要频繁扩缩容的推理集群、经常重启任务的训练流程，或任何需要跨多节点重复加载模型的环境，意义尤为重大。

带来的实际收益

借助 Safetensors 模型加载加速功能，AI 团队可以实现：

推理部署的“冷启动”速度加快；
训练任务启动与重启周期大幅加快；
通过消除模型初始化阶段的空转等待时间，显著提升 GPU 利用率；
跨云环境性能更可预测、更稳定。

Alluxio AI 3.8 让基于 Safetensors 的模型加载，不仅更快，而且真正具备了大规模云原生能力。

3.总结：Alluxio AI 3.8 消除两大存储瓶颈

Alluxio AI 3.8 的发布，正是为应对现代 AI 基础设施的真实挑战而设计：在海量规模的云端模型与数据工作流中，存储延迟和吞吐量直接导致 GPU 资源浪费与创新速度放缓。

此次版本带来两项突破性新功能：

Alluxio S3 写缓存

新增可配置写回模式，释放本地 NVMe 性能；
小对象 PUT 延迟从 30–40 毫秒降至 4–6 毫秒；
大对象写入单 Worker 吞吐量超 6 GB/s，近线性扩展。

Safetensors 模型加载加速

实现接近本地 NVMe 吞吐量的 Safetensors 模型加载；
比主流云存储方案快 15–20 倍；
基准测试：49 秒 vs 900 秒（比 AWS FSx Lustre 快 18 倍）。

这两项功能共同带来：更快的训练启动、更快的推理部署、更高效的工作流、更高的 GPU 利用率——同时始终保持对象存储作为核心记录系统。

Alluxio AI 3.8，让云端 AI 基础设施更快、更稳、更具扩展性。