首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
异构计算
百度智能云技术站
创建于2024-06-05
订阅专栏
百度智能云异构计算专栏
暂无订阅
共2篇文章
创建于2024-06-05
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
百度百舸平台的大模型训练最佳实践
本次我的分享主题在技术上算是对前面内容的综合,将围绕百舸在大模型训练过程的稳定性设计和加速实践展开,包括以下 3 个部分: 大模型时代的百舸异构计算平台; 大模型训练稳定性实践;大模型训推加速实践。
一次性讲明白,百度百舸如何搞定一个可以支持多芯混合训练的 AI 集群
由于外部环境的变化,适用于大模型训练任务的 GPU 整体规模无法继续增长。这些存量 GPU 组成的集群,仍然是当前加速大模型训练的主要 AI 算力来源。