ai - underdogs的收藏集 - 掘金

ai

更多收藏集

4篇文章 · 0订阅

专为大模型训练优化，百度集合通信库 BCCL 万卡集群快速定位故障

为了最大提升集合通信的性能，在基础设施层面，集群通常采用基于 RDMA 的高性能物理网络，在任务运行时使用集合通信库进行加速。

百度Geek说
1年前
1.3k
点赞
评论

双N卡完美运行ChatGLM3

之前ChatGLM推出3了，奈何自身条件不允许，CPU运行半天出不来结果。这次有了两张Tesla P4 N卡，16G显存，完美部署CHatGLM3模型

银空飞羽
2年前
1.3k
4
评论

基于Pytorch多机分布式训练的实现

本文已参与「新人创作礼」活动，一起开启掘金创作之路。前言由Uber公司的开发的Horovod架构，是一个集成了多个深度学习的统一平台，提供分布式训练效率的同事，让深度学习分布式训练变得更方便。\

aibigdata
3年前
957
1
评论

DeepSpeed：大模型训练框架 | 京东云技术团队

目前，大模型的发展已经非常火热，关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大，动辄上百亿，如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训

京东云开发者
2年前
1.4k
5
评论

DeepSpeed：大模型训练框架 | 京东云技术团队