首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
分布式训练
Lemon628
创建于2025-03-31
订阅专栏
学习如何通过k8s+docker+deepSpeed容器化的方式进行多机多卡的训练。
暂无订阅
共6篇文章
创建于2025-03-31
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
k8s+docker+deepSpeed多机多卡微调实验记录
在本地三台服务器上进行了多机多卡微调的基础上,准备使用docker将其容器化,然后使用k8s的StatefulSet进行容器的创建和训练。 1、为什么选择StatefuleSet 容器化的时候,由于d
配置 SSH 免密登录教程
要配置 SSH 免密登录(即使用 SSH 密钥认证),可以按照以下步骤操作: 假设环境 本地主机(Client) :你当前使用的电脑 远程服务器(Server) :你要免密登录的目标机器 用户名:us
pdsh配置教学
🔥 pdsh 连接被拒绝 (Connection refused) 的原因 pdsh 需要通过 SSH 连接其他服务器 执行命令,Connection refused 说明: SSH 端口未开放 没有
DeepSpeed多机多卡微调实验记录
1、由于本地的显卡是Tesla-T4系列,显存只有16G,这里选用了一个比较小的模型DistilBERTHuggingface地址,为了方便后续使用docker将其容器化训练,我这里写了一个下载脚本:
查看解决端口占用,以及docker解决端口占用的原理
在软件开发和部署过程中,端口占用是一个常见的问题。以下是查看和解决端口占用问题的完整解决方案: 一、查看端口占用情况 1. 在 Linux 系统中 方法一:使用 lsof 命令 输出信息中会显示占用端
conda创建虚拟环境步骤
在 Linux 上使用 conda 创建虚拟环境的步骤如下: 1. 确保 Conda 已安装 检查 Conda 是否已安装 如果输出类似: 说明 Conda 已安装。如果没有安装,可以使用以下方法安装