存储设计

102 阅读3分钟

image.png

今天将从以下三个方面来展开这次分享:

介绍大模型全流程对存储带来的全新挑战;

深入大模型全流程各个环节,看一看有哪些具体的存储问题以及对应的解决思路;

分享百度沧海·存储的加速方案及实践经验。

1. 大模型对存储的全新挑战

从过去的经典 AI,到今天人人谈论的大模型,我们看到 AI 模型的参数规模呈现出指数级的爆发增长。一方面,大模型的应用效果开始给大家带来非常大的惊喜,另一方面,也给整个基础设施带来巨大的挑战。

其一,模型规模大,训练时间长。一个 175B 参数的模型,万卡同时训练仍然需要长达 22 天。这就要求基础设施提供超高的性能和超长时间的稳定。

其二,大模型要结合具体应用才能发挥巨大的威力。大家今天谈论大模型,不再只停留在模型本身,更多的关注已经聚焦于结合业务的应用落地。面对互联网级的应用迭代,要求我们具备大规模的敏捷部署能力。

第三,大模型离不开持续更新的海量数据,这就需要与整个数据生态互通,让数据能在各个环节便捷地流动。

在这样的背景下,我们来对大模型全流程做一个拆分,大致可以划分为四个主要的环节。

第一是海量数据的存储和处理,包括采集导入、清洗、转换、标注、共享和长期归档,是后面各环节的基础。这里对存储的要求跟以前的大数据应用具有很大的共性,也带有大模型自身的特点,总结起来主要是生态的互通、高吞吐和大容量。

第二是模型开发,讲究效率为王,包括实验管理、交互式开发和效果评估等。对存储的要求更多集中在 POSIX 兼容性、可靠性和可共享等方面。

第三是模型训练。真正做过大模型训练的朋友一定深有体会,每分每秒都是经费在燃烧。所以时间就是金钱,拒绝等待,拒绝失败。这里的主要场景,一是训练数据的读取,二是为了容错做的 checkpoint 的保存和加载。数据集的部分就是要尽量读得快,减少计算对 I/O 的等待,而 checkpoint 主要要求高吞吐、减少训练中断的时间。

最后是模型推理,需要把训练完的模型快速分发部署到线上,产生业务效果。而这个过程会高频、反复发生,既要求高并发、高吞吐,又要求整个流程尽量简单高效。

你好