【分布式】入门级NCCL多机并行实践 - 02，掌握了这些前端高级工程师必备知识,Vue 编码基础 2.1.1. 组件规

Vue 编码基础

2.1.1. 组件规范

2.1.2. 模板中使用简单的表达式

2.1.3 指令都使用缩写形式

2.1.4 标签顺序保持一致

2.1.5 必须为 v-for 设置键值 key

2.1.6 v-show 与 v-if 选择

2.1.7 script 标签内部结构顺序

2.1.8 Vue Router 规范

Vue 项目目录规范

2.2.1 基础

2.2.2 使用 Vue-cli 脚手架

2.2.3 目录说明

2.2.4注释说明

2.2.5 其他

开源分享：docs.qq.com/doc/DSmRnRG…

而这些蓝色的部分就是基本的分布式通讯库，他们负责实现通讯和一部分计算功能。

2. 通讯方式

已知显卡与主板通过PCIE相连，任何数据都要从PCIE和CPU穿过，这么做的效率肯定是很低的。

因此在GPUDirect技术出现以后，我们可以把GPU通信分为GPU控制的GPU通信和CPU控制的GPU通信两种。感兴趣相关的细节可以通过此文查看：【研究综述】浅谈GPU通信和PCIe P2P DMA

我们知道通信技术有很多，例如DMA，P2P。DMA和P2P都是一种能力，而非具体的协议。

2.1 DMA & P2P

DMA(Direct Memory Access，直接内存访问)，允许在计算机主板上的设备直接把数据发送到内存中去，数据搬运不需要CPU的参与。

传统内存访问需要通过CPU进行数据copy来移动数据，通过CPU将内存中的Buffer1移动到Buffer2中。DMA模式：可以同DMA Engine之间通过硬件将数据从Buffer1移动到Buffer2,而不需要操作系统CPU的参与，大大降低了CPU Copy的开销。

通常，我们也将主机称为节点。

第二代GPUDirect技术被称作GPUDirect P2P（Peer to Peer），重点解决的是节点内GPU通信问题。两个GPU可以通过PCIe P2P直接进行数据搬移，避免了主机内存和CPU的参与。

那么一台机器中的数据搬运是DMA，多台主机的DMA如何实现呢？这就出现了RDMA这一协议。

2.2 RDMA

RDMA（ Remote Direct Memory Access ）意为远程直接地址访问，通过RDMA，本端节点可以“直接”访问远端节点的内存。所谓直接，指的是可以像访问本地内存一样，绕过传统以太网复杂的TCP/IP网络协议栈读写远端内存，而这个过程对端是不感知的，而且这个读写过程的大部分工作是由硬件而不是软件完成的。

利用机器本身的DMA能力，以及网卡等其他硬件实现的远程DMA。这就和RPC远程过程调用有类似之处。

RDMA是一种host-offload, host-bypass技术，允许应用程序(包括存储)在它们的内存空间之间直接做数据传输。具有RDMA引擎的以太网卡(RNIC)--而不是host--负责管理源和目标之间的可靠连接。

为了支持RDMA实现，有以下三种网络协议：


InfiniBand(IB)	从一开始就支持RDMA的新一代网络协议。由于这是一种新的网络技术，因此需要支持该技术的网卡和交换机。
RDMA过融合以太网(RoCE)	即RDMA over Ethernet, 允许通过以太网执行RDMA的网络协议。这允许在标准以太网基础架构(交换机)上使用RDMA，只不过网卡必须是支持RoCE的特殊的NIC。
互联网广域RDMA协议(iWARP)	即RDMA over TCP, 允许通过TCP执行RDMA的网络协议。这允许在标准以太网基础架构(交换机)上使用RDMA，只不过网卡要求是支持iWARP(如果使用CPU offload的话)的NIC。否则，所有iWARP栈都可以在软件中实现，但是失去了大部分的RDMA性能优势。

IB是最简单的方式，其次是RoCE，当然本文不做赘述，有大篇讲的好的博客，甚至直接看论文和文档也是可以的。NCCL已经支持这些协议。

2.3 MPI

MPI有多种实现方式，例如OpenMPI，MPICH。

MPI 全名叫 Message Passing Interface，即信息传递接口，作用是可以通过 MPI 可以在不同进程间传递消息，从而可以并行地处理任务，即进行并行计算。NCCL中利用MPI来处理多机通讯的部分。

直接下载：

#apt安装mpi
sudo apt-get update
sudo apt install openmpi-bin openmpi-doc libopenmpi-dev
#验证是否安装成功
mpirun --version

自己编译可参考前文：分布式学习 - MPICH编译与实践_mpich 编译指定 mpich cc_canmoumou的博客-CSDN博客

3. NCCL

NCCL在单机多卡环境下的编译与运行参考我的前文：【分布式】NCCL部署与测试 - 01_canmoumou的博客-CSDN博客

NCCL本身具备了基本的通信协议支持、环路算法、原语操作等等。

由于数据运输和计算都是在GPU上完成，需要launch kernel，因此阅读源码前要具备基本的CUDA知识。

3.1 NCCL 多机多卡实践

环境配置

两台多卡服务器，需要配置好无密钥登陆（ssh），以及NFS共享目录。NFS挂载方式如果我有空另外再写。

2. 检查IB设备及性能，确定有一块或多块IB网卡，安装nv_peer_mem驱动

3. 打开CPU高性能模式，并配置网络

查看IB网络是否正常


`ibstat` CA``'mlx5_0' CA``type``: MT4123 `Number of ports: 1` `Firmware version: 20.31.1014` `Hardware version: 0` `Node GUID: 0xb83fd203005682a2` `System image GUID: 0xb83fd203005682a2` `Port 1:` `State: Active` `Physical state: LinkUp` `Rate: 200` `Base lid: 12` `LMC: 0` `SM lid: 5` `Capability mask: 0x2651e848` `Port GUID: 0xb83fd203005682a2` `Link layer: InfiniBand`

下载其他依赖，下载NCCL源码并保证单机单卡可以运行，下载mpich。

编译运行

我们通过NCCL-TEST运行程序，其中NCCL原仓库代码不需要重新编译，只有NCCL-TEST需要重新编译，必须增添MPI_HOME，并设置MPI=1

# 单机编译nccl-test：
make CUDA_HOME=/path/to/cuda NCCL_HOME=/path/to/nccl

# 多机编译
make CUDA_HOME=/path/to/cuda NCCL_HOME=/path/to/nccl MPI_HOME=/path/to/mpi MPI=1

将编译好的build文件放到NFS目录下，这样两台机器都可以在共享目录看到此文件。

再在共享目录外设置算法拓扑(topo``.txt)和图结构(graph``.txt)，并添加mpi_hosts文件。mpi_hosts文件内放两张机器的ip地址：

# MPI CLUSTERS
X.X.X.X manager slots=1
X.X.X.X worker1 slots=1

运行：


`mpirun -hostfile mpi_hosts \` `-np 2 \` `--allow-run-as-root \` -x LD_LIBRARY_PATH=<CUDA_LIB>``:<NCCL_HOME>``/lib `\` `-x NCCL_IB_HCA=<IB net name>:1 \` `-x NCCL_DEBUG=TRACE \` `-x NCCL_PROTOS=2 \` -x NCCL_TOPO_DUMP_FILE=.``/topo``.txt \ -x NCCL_GRAPH_DUMP_FILE=.``/graph``.txt \ <nfs_share_path>``/mccl-tests/all_reduce_perf `-b 1M -e 128M -f 2 -g 1 -t 1`

最后

推荐一些系统学习的途径和方法。

路线图

每个Web开发人员必备，很权威很齐全的Web开发文档。作为学习辞典使用，可以查询到每个概念、方法、属性的详细解释，注意使用英文关键字搜索。里面的一些 HTML，CSS，HTTP 技术教程也相当不错。

开源分享：【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】

HTML 和 CSS：

html5知识

css基础知识