首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大模型训练框架
订阅
rins
更多收藏集
微信扫码分享
微信
新浪微博
QQ
5篇文章 · 0订阅
大模型训练框架(五)Accelerate
Accelerate是一个用于简化和加速深度学习模型训练的库,它支持在多种硬件配置上进行分布式训练,包括 CPU、GPU、TPU 等。
大模型训练框架(四)Megatron-LM
Megatron-LM 通过模型并行的方式,允许训练具有数千亿参数的模型。该框架综合应用了数据并行、张量并行和流水线并行来训练像 GPT这样的大型模型
大模型训练框架(三)DeepSpeed
DeepSpeed是由微软研究团队开发的一个深度学习优化库,旨在提供高效、可扩展的大规模模型训练能力。它通过采用先进的并行化策略、内存优化技术和混合精度训练来显著提高训练效率
大模型训练框架(二)FSDP
FSDP 可以看作是微软 Deepspeed 框架中提出的三种级别的 ZERO 算法中的 `ZERO-3` 的实现。
大模型训练框架(一)综述
尽管 PyTorch 是一个非常流行的深度学习框架,它在动态计算图、易用性、灵活性和强大的社区支持方面具有许多优点 ,但在大模型训练方面,我们需要更专业的框架来满足特定的需求,最主要的原因是:`分布式