首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
ai
订阅
underdogs
更多收藏集
微信扫码分享
微信
新浪微博
QQ
4篇文章 · 0订阅
专为大模型训练优化,百度集合通信库 BCCL 万卡集群快速定位故障
为了最大提升集合通信的性能,在基础设施层面,集群通常采用基于 RDMA 的高性能物理网络,在任务运行时使用集合通信库进行加速。
双N卡完美运行ChatGLM3
之前ChatGLM推出3了,奈何自身条件不允许,CPU运行半天出不来结果。这次有了两张Tesla P4 N卡,16G显存,完美部署CHatGLM3模型
基于Pytorch多机分布式训练的实现
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 前言 由Uber公司的开发的Horovod架构,是一个集成了多个深度学习的统一平台,提供分布式训练效率的同事,让深度学习分布式训练变得更方便。\
DeepSpeed: 大模型训练框架 | 京东云技术团队
目前,大模型的发展已经非常火热,关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大,动辄上百亿,如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训