存储设计今天将从以下三个方面来展开这次分享：介绍大模型全流程对存储带来的全新挑战；深入大模型全流程各个环节，看一看有

今天将从以下三个方面来展开这次分享：

介绍大模型全流程对存储带来的全新挑战；

深入大模型全流程各个环节，看一看有哪些具体的存储问题以及对应的解决思路；

分享百度沧海·存储的加速方案及实践经验。

1. 大模型对存储的全新挑战

从过去的经典 AI，到今天人人谈论的大模型，我们看到 AI 模型的参数规模呈现出指数级的爆发增长。一方面，大模型的应用效果开始给大家带来非常大的惊喜，另一方面，也给整个基础设施带来巨大的挑战。

其一，模型规模大，训练时间长。一个 175B 参数的模型，万卡同时训练仍然需要长达 22 天。这就要求基础设施提供超高的性能和超长时间的稳定。

其二，大模型要结合具体应用才能发挥巨大的威力。大家今天谈论大模型，不再只停留在模型本身，更多的关注已经聚焦于结合业务的应用落地。面对互联网级的应用迭代，要求我们具备大规模的敏捷部署能力。

第三，大模型离不开持续更新的海量数据，这就需要与整个数据生态互通，让数据能在各个环节便捷地流动。

在这样的背景下，我们来对大模型全流程做一个拆分，大致可以划分为四个主要的环节。

第一是海量数据的存储和处理，包括采集导入、清洗、转换、标注、共享和长期归档，是后面各环节的基础。这里对存储的要求跟以前的大数据应用具有很大的共性，也带有大模型自身的特点，总结起来主要是生态的互通、高吞吐和大容量。

第二是模型开发，讲究效率为王，包括实验管理、交互式开发和效果评估等。对存储的要求更多集中在 POSIX 兼容性、可靠性和可共享等方面。

第三是模型训练。真正做过大模型训练的朋友一定深有体会，每分每秒都是经费在燃烧。所以时间就是金钱，拒绝等待，拒绝失败。这里的主要场景，一是训练数据的读取，二是为了容错做的 checkpoint 的保存和加载。数据集的部分就是要尽量读得快，减少计算对 I/O 的等待，而 checkpoint 主要要求高吞吐、减少训练中断的时间。

最后是模型推理，需要把训练完的模型快速分发部署到线上，产生业务效果。而这个过程会高频、反复发生，既要求高并发、高吞吐，又要求整个流程尽量简单高效。

你好