Docker集群编排工具Swarm

什么是Swarm

Swarm是Docker公司自研发的容器集群管理系统，Swarm在早期是作为一个独立服务存在，在Docker Engine v1.12中集成了Swarm的集群管理，和编排功能，可以通过初始化Swarm或加入现有Swarm来启用Docker引擎的Swarm模式。

Docker Engine CLI和API包括了管理Swarm节点命令，比如添加、删除节点，以及在Swarm中部署和编排服务，也增加了服务栈（Stack）、服务（Service）、任务（Task）概念

Swarm能干什么

Swarm是Docker 引擎内置（原生）的集群管理和编排工具，Docker Swarm是 Docker 官方三剑客项目之一，swarm是基于docker平台实现的集群技术，他可以通过几条简单的指令快速的创建一个docker集群，接着在集群的共享网络上部署应用，最终实现分布式的服务。

swarm节点

swarm是一系列节点的集合，而节点可以是一台裸机或者一台虚拟机，一个节点能扮演一个或者两个角色，manager或者worker。

manager节点

Docker Swarm集群需要至少一个manager节点，节点之间使用**Raft consensus protocol**进行协同工作。

通常，第一个启用docker swarm的节点将成为leader，后来加入的都是follower，当前的leader如果挂掉，剩余的节点将重新选举出一个新的leader

每一个manager都有一个完整的当前集群状态的副本，可以保证manager的高可用。

worker节点

worker节点是运行实际应用服务的容器所在的地方，理论上，一个manager节点也能同时成为worker节点，但在生产环境中，我们不建议这样做。

worker节点之间，通过control plane进行通信，这种通信使用gossip协议，并且是异步的。

运行机制

名词解释

集群中经常谈到的stacks, services, tasks，他们之间的关系。

下面简单解释一下这三者的含义：

task

在Docker Swarm中，task是一个部署的最小单元，task与容器是一对一的关系。

services

swarm service是一个抽象的概念，它只是一个对运行在swarm集群上的应用服务，所期望状态的描述。它就像一个描述了下面物品的清单列表一样：

服务名称
使用哪个镜像来创建容器
要运行多少个副本
服务的容器要连接到哪个网络上
应该映射哪些端口

stack

stack是描述一系列相关services的集合。我们通过在一个YAML文件中来定义一个stack。

工作原理

服务、任务和容器

当将服务部署到集群时，管理者将服务定义视为服务所需状态，然后将服务调度为一个或多个副本任务，这些任务在集群的节点上彼此独立运行。

例如下图有三个副本的HTTP服务，每个服务实例就是一个任务。

容器是一个独立的进程，在swarm模型中，每个任务调用一个容器，任务类似于插槽，调度器将容器放入其中，一旦容器运行，调度器认为该任务处于运行状态。如果容器出现健康监测失败或者终止，那么任务也终止。

副本和全局服务

有两种类型的服务部署：副本和全局

对于副本服务，指定要运行的相同任务的数量，每个副本都是相同的内容。

全局服务是在每个节点上运行一个任务的服务，不需要预先指定任务数量，每当将一个节点添加到集群中，协调者将创建一个任务，并且调度器将任务分配给该新加入的节点，全局服务最好是监控代理、反病毒扫描程序等等想要在集群中每个节点上运行的容器。

下图显示三个副本服务(黄色)和全局服务(灰色)：

准备环境

服务器准备

我的三台测试机

IP地址	角色	主机名
192.168.64.153	manager	node1
192.168.64.154	worker	node2
192.168.64.155	worker	node3

服务器端口开放

在创建集群前，如果开启了防火墙，请确认三台主机的防火墙能让swarm需求的端口开放，需要打开主机之间的端口，以下端口必须可用。在某些系统上，这些端口默认为打开。

2377：TCP端口2377用于集群管理通信
7946：TCP和UDP端口7946用于节点之间的通信
4789：TCP和UDP端口4789用于覆盖网络流量

可以直接禁用系统防火墙来让这些端口通信不受限制，一般测试环境我们都会禁用防火墙

systemctl stop firewalld（立即生效）
systemctl disable firewalld（重启生效）

搭建Swarm集群

当首次安装并使用Docker Engine时，默认情况下swarm模式是禁用的。当启用swarm模式时，可以使用docker service 服务管理命令。

有两种方式在swarm模式下运行引擎：

创建一个新的集群
加入现有集群

在生成环境中，集群模式提供具有集群管理功能的容错平台，以保证服务的可靠运行。

下面我们就来搭建一个swarm集群

初始化集群

docker swarm init --advertise-addr 192.168.64.153(本机地址)

生成口令

生成管理节点口令

docker swarm join-token manager

生成执行节点口令

docker swarm join-token worker

其他节点加入集群

在第一个从节点执行加入 work的指令

docker swarm join --token SWMTKN-1-53p5t2rt9ud5j0owkl14boj2z8im6r60ddlzotgc4a8y93u1c2-8f6crxgyc9umayhxva1jv9t1w 192.168.64.153:2377

第二个节点执行加入work的命令

docker swarm join --token SWMTKN-1-53p5t2rt9ud5j0owkl14boj2z8im6r60ddlzotgc4a8y93u1c2-8f6crxgyc9umayhxva1jv9t1w 192.168.64.153:2377

查看swarm的节点

执行docker node ls 查看swarm节点信息

docker node ls

AVAILABILITY状态说明

Active 意味着调度程序可以将任务分配给节点。
Pause 意味着调度程序不会将新任务分配给节点，但现有任务仍在运行。
Drain 意味着调度程序不会向节点分配新任务，调度程序关闭所有现有任务并在可用节点上调度它们。

MANAGER STATUS状态说明

显示节点是属于manager或者worker

没有值 ：表示不参与群管理的工作节点。
Leader ：意味着该节点是使得群的所有群管理和编排决策的主要管理器节点。
Reachable：意味着节点是管理者节点正在参与Raft共识，如果领导节点不可用，则该节点有资格被选为新领导者。
Unavailable ：意味着节点是不能与其他管理器通信的管理器，如果管理器节点不可用，您应该将新的管理器节点加入群集，或者将工作器节点升级为管理器。

修改主机名

默认centos的主机名是localhost，我们看上面，节点的主机名都是localhost,我们修改以下

查看主机名

hostnamectl status可以查看主机名

hostnamectl status

修改主机名

修改主机名使用hostnamectl set-hostname NAME命令可以进行修改，我们使用 node1,node2...方式命名我们的节点

#修改主机名
hostnamectl set-hostname node1
# 查看主机名
hostnamectl status

添加节点标签

因为我们用到了节点约束，所有启动服务之前需要添加节点标签

# 添加标签
docker node update --label-add role=data node1
#查看节点标签信息
docker node inspect node1|grep role

管理节点

升降级节点

无论您升级或降级节点，您应该始终在群中维护奇数个管理器节点，

升降级节点角色只能在管理节点上运行，应先升级工作节点为被选举者，再降级领导者为工作节点，然后被选举者成为领导者完成替换；

您可以将工作程序节点提升为manager角色。这在管理器节点不可用或者您希望使管理器脱机以进行维护时很有用。类似地，您可以将管理器节点降级为worker角色。

升级节点

要降级一个节点或一组节点，请从管理器节点运行

docker node promote 节点名称

docker node promote pbui0rdry85e25i3bvhzmqw8h

升级节点后不会马上生效，会进入Reachable状态，如果leader节点关掉，当前节点会参与主节点竞争

降级节点

要升级一个节点或一组节点，请从管理器节点运行

docker node demote 节点名称

docker node demote r7cv7prw1h2to9h1cpwxs9jhl

swam将节点降级后，再次查看节点命令不生效，需要到管理节点查看

节点退出swarm集群

docker swarm leave 命令可在所有节点上运行，值得注意的是，工作节点退出swarm集群后，在管理节点上依然保存着工作节点的节点信息，状态为down，要删除节点信息，可使用docker node rm 命令，当所有的节点都退出并且被删除时，在管理节点上使用docker swarm leave，然后退出整个集群；

在工作节点执行以下命令可以退出swarm节点

docker swarm leave

根据退出节点前后查看节点信息，可以发现退出的节点是down的状态，并没有删除节点

删除节点信息

在管理节点执行删除命令docker node rm 节点ID

docker node rm r7cv7prw1h2to9h1cpwxs9jhl

管理集群服务

管理集群服必须在manager角色的主机上

创建overlay网络

我们需要载多个服务器中运行Docker容器集群，需要使用overlay网络，overlay网络用于连接不同机器上的docker容器，允许不同机器上的容器相互通信，同时支持对消息进行加密

docker network create --driver overlay learn-docker-overlay-network

创建服务

使用docker service create命令来创建服务

创建MySQL服务

docker service create \
-e MYSQL_ROOT_PASSWORD=root \
--mount type=bind,source=/tmp/etc/mysql,destination=/etc/mysql/mysql.conf.d/ \
--mount type=bind,source=/tmp/data/mysql,destination=/var/lib/mysql \
--replicas 1 \
--constraint 'node.labels.role == data' \
--name mysql \
--network learn-docker-overlay-network \
mysql:5.7.38

--replicas 1 表示在集群中创建1个服务

node.labels.role == data表示节点需要创建在标签是data的节点上

创建nacos服务

nacos也是需要创建一个，但是节点是可以漂移的，不需要固定在某一台机器

docker service create \
-e MODE=standalone \
--replicas 1 \
--name nacos \
--constraint 'node.labels.role == data' \
--network learn-docker-overlay-network \
nacos/nacos-server

创建learn-docker-storage服务

我们创建learn-docker-storage服务，我们将该服务部署两个节点

docker service create \
--name learn-docker-storage \
--replicas 2 \
--network learn-docker-overlay-network \
manager-hongbaoyu-java.itheima.net:8443/library/learn-docker-storage:1.0-SNAPSHOT

创建learn-docker-web服务

我们创建learn-docker-web服务，我们将该服务同样部署两个节点

docker service create \
--name learn-docker-web \
--replicas 2 \
--network learn-docker-overlay-network \
manager-hongbaoyu-java.itheima.net:8443/library/learn-docker-web:1.0-SNAPSHOT

创建learn-docker-gateway服务

我们创建learn-docker-gateway服务，因为是网关服务，我们只创建一个节点,因为需要对外暴漏端口，需要开放8888端口

docker service create \
-p 8888:8888 \
--name learn-docker-gateway \
--replicas 1 \
--network learn-docker-overlay-network \
manager-hongbaoyu-java.itheima.net:8443/library/learn-docker-gateway:1.0-SNAPSHOT

查看swarm进程

## 查看所有服务
docker service ls
## 查看某个服务下的task
docker service ps mysql

测试访问微服务

因为在node2节点上，node2节点IP是192.168.64.154 我们可以请求URL访问

 curl http://192.168.64.154:8888/employeapi/find/10001| python -m json.tool

查看某个服务日志

通过docker service logs 服务命可以看到当前服务的日志，但是这个服务有两个容器在运行，所有能同时看到两个容器的日志

docker service logs learn-docker-storage

扩缩容服务

可以通过集群操作对集群进行扩缩容

扩容操作

我们将learn-docker-storage由两个容器变为三个容器

docker service scale learn-docker-storage=3

这样我们就把存储服务变成了三台服务

缩容操作

同样，使用该命令对learn-docker-storage进行缩容

docker service scale learn-docker-storage=2

删除服务

我们可以尝试把learn-docker-gateway删除掉，删除操作将会把整个服务的所有容器删除

docker service rm learn-docker-gateway

Docker Stack管理服务

我们上面使用swarm部署服务，单个服务还好，如果很多个服务怎么来解决呢，这里就用到了Docker Stack管理服务。

在上面我们学会了如何配置一个swarm集群，并且知道如何在swarm集群上部署应用，现在，我们开始了解Docker层级关系中的最高一个层级——stack，一个stack就是一组有关联的服务的组合，可以编排在一起，一起管理

单机模式下，我们可以使用 Docker-Compose来编排多个服务，而 Docker Swarm 只能实现对单个服务的简单部署，于是就引出了本文的主角 Docker Stack ，通过 Docker Stack 我们只需对已有的 docker-compose.yml 配置文件稍加改造就可以完成 Docker 集群环境下的多服务编排。

集群搭建案例

应用部署情况

服务名称	数量
mysql	1
nacos	1
learn-docker-gateway	1
learn-docker-web	2
learn-docker-storage	2

创建docker-compose.yml

首先创建一个 docker-compose.yml 文件，使用 Docker Compose v3 语法

我们把我们原来单机版的docker-compose.yml改造以下

version: '3.9'   
services:
    mysql:
        image: mysql:5.7.33
        networks:
            - learn-docker-network
        volumes:
            - "/tmp/etc/mysql:/etc/mysql/mysql.conf.d/"
            - "/tmp/data/mysql:/var/lib/mysql"
        environment:
            MYSQL_ROOT_PASSWORD: 'root'
        deploy:
            mode: replicated
            replicas: 1
            placement:
                constraints:
                    - 'node.labels.role == data'
            restart_policy:
                condition: on-failure
                delay: 5s
                
    nacos:
        image: nacos/nacos-server
        ports:
            - "8848:8848"
        networks:
            - learn-docker-network
        environment:
            MODE: 'standalone'
            JVM_XMS: '128m'
            JVM_XMX: '128m'
        deploy:
            mode: replicated
            replicas: 1
            placement:
                constraints:
                    - 'node.labels.role == data'
            restart_policy:
                condition: on-failure
                delay: 5s
    
    learn-docker-web:
        image: registry.cn-hangzhou.aliyuncs.com/baiyp/learn-docker-web:1.0-SNAPSHOT
        networks:
            - learn-docker-network
        depends_on:
            - nacos
            - mysql
        deploy:
            mode: replicated
            replicas: 2
            restart_policy:
                condition: on-failure
                delay: 5s
                
            
    learn-docker-storage:
        image: registry.cn-hangzhou.aliyuncs.com/baiyp/learn-docker-storage:1.0-SNAPSHOT
        networks:
            - learn-docker-network
        depends_on:
            - nacos
            - mysql
        deploy:
            mode: replicated
            replicas: 2
            restart_policy:
                condition: on-failure
                delay: 5s
    learn-docker-gateway:
        image: registry.cn-hangzhou.aliyuncs.com/baiyp/learn-docker-gateway:1.0-SNAPSHOT
        ports:
            - "8888:8888"
        networks:
            - learn-docker-network
        depends_on:
            - nacos
            - mysql
        deploy:
            mode: replicated
            replicas: 1
            restart_policy:
                condition: on-failure
                delay: 5s
                
    visualizer:
        image: dockersamples/visualizer
        ports:
            - "8080:8080"
        volumes:
            - "/var/run/docker.sock:/var/run/docker.sock"
        deploy:
            mode: replicated
            replicas: 1
            restart_policy:
                condition: on-failure
                delay: 5s


networks:
    learn-docker-network:
        driver: overlay

配置介绍

Stack文件就是Docker Compose文件。唯一的要求就是version:一项需要是3.0或者更高的值。在Docker根据某个Stack文件部署应用的时候，首先会检查并创建networks：关键字对应网络。如果网络不存在，Docker会进行创建。下面我们详细看下这几个模块。

overlay网络

这里定义了1个网络，默认情况下网络都是使用overlay驱动，新建对应的覆盖类型的网络。

networks:
    learn-docker-network:
        driver: overlay

部署节点副本数

接下来我们进一步了解deploy关键字新增的内容

        deploy:
            mode: replicated
            replicas: 2
            restart_policy:
                condition: on-failure
                delay: 5s

replicas: 2 设置了期望服务的副本数量为2，默认为1.如果服务正在运行，需要调整副本数。可以调整stack文件中的 replicas 的数值，然后重新部署stack，重新部署stack并不会影响那些没有改动的服务。
restart_policy: 定义了Swarm针对容器异常退出的重启策略。当前服务的重启策略是：如果某个副本以非0返回值退出，会立即重启当前副本，重启最多尝试3次，每次都是等待之多120s来检测是否成功，每次重启的间隔是5s。

节点约束

因为我们的数据库节点只能部署在数据节点，因为需要挂载本地的数据文件以及数据库文件，所有需要使用标签进行节点约束

    mysql:
        image: mysql:5.7.33
        networks:
            - learn-docker-network
        volumes:
            - "/tmp/etc/mysql:/etc/mysql/mysql.conf.d/"
            - "/tmp/data/mysql:/var/lib/mysql"
        environment:
            MYSQL_ROOT_PASSWORD: 'root'
        deploy:
            mode: replicated
            replicas: 1
            placement:
                constraints:
                    - 'node.labels.role == data'
            restart_policy:
                condition: on-failure
                delay: 5s

这里的 'node.labels.role == data含义就是将当前mysql节点约束在标签名字是role，并且值是data的数据节点，更多操作请参考下文

部署服务

部署应用

使用docker stack deploy 命令部署

docker stack deploy -c docker-compose.yml learn-docker-test

这里我们指定了docker-compose文件，并把stack命名为 learn-docker-test。

查看部署情况

可以通过docker stack ls命令查看集群部署情况，会列出 Swarm 集群中的全部 Stack，包括每个 Stack 拥有多少服务

查看nacos节点信息

访问nacos服务，发现我们的服务都已经注册

测试访问服务

访问服务接口测试

curl http://192.168.245.153:8888/employeapi/find/10001| python -m json.tool

集群管理

更新服务

docker service upadte可以对swarm服务进行升级

参数详解

--force 强制更新重启服务，无论是否配置或镜像改变都更新
--image image:tag 制定更新的镜像
--with-registry-auth 向 Swarm 代理发送 Registry 认证详细信息，私有仓库需要携带该参数

更新镜像

#查看服务详情
docker service ls
# 更新服务
docker service update --image manager-hongbaoyu-java.itheima.net:8443/library/learn-docker-storage:1.0-SNAPSHOT learn-docker-test_learn-docker-storage

删除应用

查看部署集群

docker stack ls可以查看部署的服务列表

执行删除

docker stack rm stack名称命令会删除整个stack集群，注意移除操作执行前并不会进行二次确认。

docker stack rm learn-docker-test

命令	说明
docker stack deploy	部署新的堆栈或更新现有堆栈
docker stack ls	列出现有堆栈
docker stack ps	列出堆栈中的任务
docker stack rm	删除堆栈
docker stack services	列出堆栈中的服务
docker stack down	移除某个堆栈（不会删除数据）

命令	说明
docker service create	部署服务
docker service inspect	查看服务详情
docker service logs	产看某个服务日志
docker service ls	查看所有服务详情
docker service rm	删除某个服务（`-f`强制删除）
docker service scale	设置某个服务个数
docker service update	更新某个服务

命令	说明
docker node ls	查看所有集群节点
docker node rm	删除某个节点（`-f`强制删除）
docker node inspect	查看节点详情
docker node demote	节点降级，由管理节点降级为工作节点
docker node promote	节点升级，由工作节点升级为管理节点
docker node update	更新节点
docker node ps	查看节点中的 Task 任务

命令	说明
docker swarm init	初始化集群
docker swarm join-token worker	查看工作节点的 token
docker swarm join-token manager	查看管理节点的 token
docker swarm join	加入集群中

portainer集群管理（扩展）

Portainer介绍

Portainer是一个可视化的容器镜像的图形管理工具，利用Portainer可以轻松构建，管理和维护Docker环境，而且完全免费，基于容器化的安装方式，方便高效部署。

Portainer 的目的是部署和使用一样简单。它由一个可以在任何 Docker 引擎上运行的单一容器组成（可以部署为Linux容器或Windows本地容器，也支持其他平台）。Portainer允许你管理所有的Docker资源（容器、镜像、卷、网络等等）。它与独立的Docker引擎和Docker Swarm模式兼容。

安装

Docker Standalone安装

docker run -d -p 8000:8000 -p 9000:9000 --name=portainer --restart=always -v /var/run/docker.sock:/var/run/docker.sock -v portainer_data:/data portainer/portainer-ce

swarm集群安装

使用swarm集群安装Portainer，用Portainer来管理swarm集群

编写配置文件

vim portainer-agent-stack.yml

version: '3.9'
services:
   portainer:
     image: portainer/portainer-ce
     volumes:
       - "/var/run/docker.sock:/var/run/docker.sock"
       - "/data:portainer_data"

部署应用

docker stack deploy -c portainer-agent-stack.yml portainer

portainer使用

注册用户

默认访问接口是9000端口，可以通过浏览器进行访问，首次登陆需要注册用户，给admin用户设置密码

查看管理服务

点击home节点，当前这个节点就是我们的swarm集群

点进去就可以看到我们能操作的菜单了

查看swarm节点

点击swarm菜单就可以看到swarm节点了

管理微服务

服务部署情况

我们要将我们的服务交给portainer管理

服务名称	数量
mysql	1
nacos	1
learn-docker-gateway	1
learn-docker-web	2
learn-docker-storage	2

准备工作

管理节点标签

我们MySQL需要部署在数据节点，我们添加节点标签

在swarm管理节点，点击节点信息进入下面详情页面进行配置标签

添加网络信息

因为我们的节点需要一个共有的overlay网络，我们需要配置下，在network节点点击添加

在添加页面选择overlay网络类型，名字叫做learn-docker-network

然后点击创建就可以

创建仓库配置

因为我们的微服务需要从我们自己的harbor镜像仓库拉取，需要将我们的仓库配置

在仓库节点填写我们的镜像地址就可以https://manager-hongbaoyu-java.itheima.net:8443

创建stack任务

在stack界面点击stack菜单进行添加stck任务

在stack管理界面将我们的docker-compose.yml复制进我们的stack界面

点击创建节点信息就可以，等待部署就可以

稍等下节点就部署完成了

点击进去就可以单到节点详情了

查看节点部署情况

进入swarm管理界面

点击Go to cluster visualizer查看服务部署情况

Docker集群编排工具Swarm

Docker集群编排工具Swarm

什么是Swarm

Swarm能干什么

swarm节点

manager节点

worker节点

运行机制

名词解释

task

services

stack

工作原理

服务、任务和容器

副本和全局服务

准备环境

服务器准备

服务器端口开放

搭建Swarm集群

初始化集群

生成口令

生成管理节点口令

生成执行节点口令

其他节点加入集群

查看swarm的节点

AVAILABILITY状态说明

MANAGER STATUS状态说明

修改主机名

查看主机名

修改主机名

添加节点标签

管理节点

升降级节点

升级节点

降级节点

节点退出swarm集群

删除节点信息

管理集群服务

创建overlay网络

创建服务

创建MySQL服务

创建nacos服务

创建learn-docker-storage服务

创建learn-docker-web服务

创建learn-docker-gateway服务

查看swarm进程

测试访问微服务

查看某个服务日志

扩缩容服务

扩容操作

缩容操作

删除服务

Docker Stack管理服务

集群搭建案例

应用部署情况

创建docker-compose.yml

overlay网络

部署节点副本数

节点约束

部署服务

部署应用

查看部署情况

查看nacos节点信息

测试访问服务

集群管理

更新服务

参数详解

更新镜像

删除应用

查看部署集群

执行删除

相关命令（手册）

docker stack 常用命令

docker service 常用命令

docker node 常用命令

docker swarm 常用命令

portainer集群管理（扩展）

Portainer介绍

安装

Docker Standalone安装