稀土掘金 稀土掘金
    • 首页
    • AI Coding NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • AI刷题
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
    • vip
      会员
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
0 /100
ai
订阅
avatar
underdogs
更多收藏集

微信扫码分享

微信
新浪微博
QQ

4篇文章 · 0订阅
  • 专为大模型训练优化,百度集合通信库 BCCL 万卡集群快速定位故障
    为了最大提升集合通信的性能,在基础设施层面,集群通常采用基于 RDMA 的高性能物理网络,在任务运行时使用集合通信库进行加速。
    • 百度Geek说
    • 1年前
    • 1.2k
    • 点赞
    • 评论
    GPU 运维 百度
  • 双N卡完美运行ChatGLM3
    之前ChatGLM推出3了,奈何自身条件不允许,CPU运行半天出不来结果。这次有了两张Tesla P4 N卡,16G显存,完美部署CHatGLM3模型
    • 银空飞羽
    • 1年前
    • 1.2k
    • 4
    • 评论
    LLM 机器学习
  • 基于Pytorch多机分布式训练的实现
    本文已参与「新人创作礼」活动,一起开启掘金创作之路。 前言 由Uber公司的开发的Horovod架构,是一个集成了多个深度学习的统一平台,提供分布式训练效率的同事,让深度学习分布式训练变得更方便。\
    • aibigdata
    • 3年前
    • 852
    • 1
    • 评论
    大数据
  • DeepSpeed: 大模型训练框架 | 京东云技术团队
    目前,大模型的发展已经非常火热,关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大,动辄上百亿,如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训
    • 京东云开发者
    • 1年前
    • 1.3k
    • 5
    • 评论
    人工智能 AIGC LLM
    DeepSpeed: 大模型训练框架 | 京东云技术团队