Node节点搭建

548 阅读2分钟

思路解析

将t2i项目和comfyui项目等放到一个服务器上面对外提供http服务,前端可以使用Nginx负载均衡调用

机器1:116.130.185.48

配置:两个NVIDIA A100 PCIe 80GB

机器2:54.212.213.226

配置:一个24G的A10G 显卡

服务器前置配置

  • 安装英伟达驱动,来正确使用 GPU 的计算能力
  • 安装CUDA,并行计算架构,用来GPU加速
  • 安装cuDNN,是由 NVIDIA 提供的一个 GPU 加速库

驱动安装

更新系统包列表: sudo apt update

安装 build-essentialdkms 这两个软件包:

build-essential:安装这个包后,你将获得一组开发工具,这些工具是编译和构建从源代码安装软件所必需的

dkms:安装这个包后,你可以方便地管理内核模块

添加NVIDIA的官方PPA(个人包存档): sudo add-apt-repository ppa:graphics-drivers/ppa

再次更新系统包列表: sudo apt update

查找推荐的驱动版本: ubuntu-drivers devices

下载系统推荐的560驱动:sudo apt install nvidia-driver-560

重启系统:sudo reboot

检查驱动: nvidia-smi

CUDA,cudNN安装

使用wget根据nvidia-smi推荐的CUDA版本下载:

wget https://developer.download.nvidia.com/compute/cuda/12.6.2/local_installers/cuda_12.6.2_560.35.03_linux.run

进行安装:sudo sh cuda_12.6.2_560.35.03_linux.run

安装过程去除默认的驱动Drvier,因为已经安装了驱动

编辑 ~/.bashrc 文件: nano ~/.bashrc

添加下面内容:

      export PATH=/usr/local/cuda-12.6/bin${PATH:+:${PATH}}
      export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

保存并退出文件运行: source ~/.bashrc

更新系统的动态链接器: sudo ldconfig

验证安装: nvcc --version

cudNN安装:官方页面按照步骤安装:developer.nvidia.com/cudnn

Conda安装CUDA,cudNN

wget repo.anaconda.com/miniconda/M…

bash Miniconda3-latest-Linux-x86_64.sh

conda create -n comfyui python=3.10

conda activate comfyui

conda install cuda-toolkit=11.8 -c nvidia

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

项目迁移

跨服务器复制:

scp -r /home/ubuntu/ComfyUI ubuntu@116.130.185.48:/mnt/extradisk

优化后的复制命令:

-a: 归档模式,保留所有文件属性

-v: 显示详细信息

-z: 传输时压缩数据

-P: 显示进度条并支持断点续传

rsync -avzP /home/ubuntu/Comfy-t2i ubuntu@116.130.185.48:/mnt/extradisk

rsync -avzP /home/ubuntu/Comfy-t2i ubuntu@54.212.213.226:/opt/dlami/nvme

rsync -avzP /home/ubuntu/ComfyUI ubuntu@54.212.213.226:/opt/dlami/nvme

rsync -avzP /home/ubuntu/ComfyImage2obs ubuntu@54.212.213.226:/opt/dlami/nvme

启动

bot:uvicorn t2i:app --host 0.0.0.0 --port 8001 t2i:uvicorn t2i:app --host 0.0.0.0 comfyui:python3 main.py --listen 0.0.0.0 存储服务:uvicorn main:app --host 0.0.0.0 --port 7001