docker搭建canal-admin

2,131 阅读6分钟

MySQL配置

  • 对于自建 MySQL , 需要先开启 Binlog 写入功能,配置 binlog-format 为 ROW 模式,my.cnf 中配置如下

    [mysqld]
    log-bin=mysql-bin # 开启 binlog
    binlog-format=ROW # 选择 ROW 模式
    server_id=10010 # 配置 MySQL replaction 需要定义,不要和 canal 的 slaveId 重复
    
  • 授权 canal 链接 MySQL 账号具有作为 MySQL slave 的权限, 如果已有账户可直接 grant(或者选择已有的从节点账号)

    CREATE USER canal IDENTIFIED BY 'canal';
    GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%';
    -- GRANT ALL PRIVILEGES ON *.* TO 'canal'@'%' ;
    FLUSH PRIVILEGES;
    

canal容器的创建与启动

  1. 拉取所需要的镜像

    # canal-admin(Web可视化页面)
    🍓 ➜  ~ docker pull canal/canal-admin
    # canal-server(canal的对应服务)
    🍓 ➜  ~ docker pull canal/canal-server
    
  2. 下载canal-admin的运行脚本

    wget https://raw.githubusercontent.com/alibaba/canal/master/docker/run_admin.sh
    
  3. 启动并运行canal-admin

    # 以8089端口启动canal-admin
    sh run_admin.sh -e server.port=8089 \
             -e canal.adminUser=admin \
             -e canal.adminPasswd=admin
    
    # 指定外部的mysql作为admin的库【用不到】
    sh run_admin.sh \
        -e server.port=8089 \
        -e spring.datasource.address=host.docker.internal \
        -e spring.datasource.database=xxx \
        -e spring.datasource.username=root \
        -e spring.datasource.password=xxx
    
  4. 打开浏览器,访问http://localhost:8089,默认账号密码为admin/123456,首页如图所示

  5. 下载canal-server的运行脚本

    wget https://raw.githubusercontent.com/alibaba/canal/master/docker/run.sh
    
  6. 启动canal-server

  • 单机模式启动canal-server

admin管理模式启动并运行canal-server,本案例以单机模式为例

# 以单机模式启动
run.sh -e canal.admin.manager=127.0.0.1:8089 \
         -e canal.admin.port=11110 \
         -e canal.admin.user=admin \
         -e canal.admin.passwd=4ACFE3202A5FF5CF467898FC58AAB1D615029441

PS:在docker容器中,若非主机网络模式,127.0.0.1并非为主机的地址,Mac版可使用**host.docker.internal**访问到主机,Linux暂不支持,需要手动在容器中查询到主机的ip,替换掉上面的127.0.0.1

启动成功后,刷新admin页面的server列表,会出现刚刚启动的canal-server:

至此,canal的创建与启动已经完成,在管理页面进行配置操作即可
  • 集群模式启动canal-server

admin管理模式启动并运行canal-server,本案例以集群模式为例,集群模式需手动创建一个集群,并且提供zookeeper地址,然后启动参数加上集群名称即可,配置与单机模式一样,只不过一个集群共用一个server配置

集群模式启动,自动加入test-zk集群(cluster可在页面先配置)

image.png

需要在admin页面打开主配置,然后载入模板修改配置文件--canal.zkServers

image.png

# 如果使用集群模式,需要在canal-admin管理页面创建集群,同一个集群使用相同的配置文件
run.sh -e canal.admin.manager=127.0.0.1:8089 \
         -e canal.admin.port=11110 \
         -e canal.admin.user=admin \
         -e canal.admin.passwd=4ACFE3202A5FF5CF467898FC58AAB1D615029441 
         -e canal.admin.register.cluster=test-zk

启动成功后,刷新页面的server列表,会出现下面情况

image.png

canal核心配置介绍

canal的配置分为server配置和instance配置,一个server可包含多个instance,部分配置

server配置

# 服务模式,支持tcp, kafka, rocketMQ, rabbitMQ
canal.serverMode = kafka

### kafka配置
# 该值为false时,发送的消息为二进制压缩格式,需要客户端使用protobuf工具解析,为true时,发送json文本
canal.mq.flatMessage = true
# kafka服务器地址
kafka.bootstrap.servers = host.docker.internal:9092

instance配置

# 监听的数据库地址
canal.instance.master.address=host.docker.internal:3306
# 数据库的用户名
canal.instance.dbUsername=root
# 数据库密码
canal.instance.dbPassword=123456
# 表名过滤,正则表达式,(${库名}.${表名})
canal.instance.filter.regex=.+\..+

# kafka topic名称,所有的消息都将放入此topic
# canal.mq.topic=example
# 根据库名可表名动态topic
canal.mq.dynamicTopic=.+\..+
# 发送分区
canal.mq.partition=0
# 分区数量
#canal.mq.partitionsNum=3
# 根据库名和表名计算出发送分区(Hash),可控制同一个库/表有序
#canal.mq.partitionHash=test.table:id^name,.*\..*

### 动态topic和partition的详细说明
# canal.mq.dynamicTopic 表达式说明
# canal 1.1.3版本之后, 支持配置格式:schema 或 schema.table,多个配置之间使用逗号或分号分隔

# 例子1:test\.test 指定匹配的单表,发送到以test_test为名字的topic上
# 例子2:.*\..* 匹配所有表,则每个表都会发送到各自表名的topic上
# 例子3:test 指定匹配对应的库,一个库的所有表都会发送到库名的topic上
# 例子4:test\..* 指定匹配的表达式,针对匹配的表会发送到各自表名的topic上
# 例子5:test,test1\.test1,指定多个表达式,会将test库的表都发送到test的topic上,test1\.test1的表发送到对应的test1_test1 topic上,其余的表发送到默认的canal.mq.topic值
# 为满足更大的灵活性,允许对匹配条件的规则指定发送的topic名字,配置格式:topicName:schema 或 topicName:schema.table

# 例子1: test:test\.test 指定匹配的单表,发送到以test为名字的topic上
# 例子2: test:.*\..* 匹配所有表,因为有指定topic,则每个表都会发送到test的topic下
# 例子3: test:test 指定匹配对应的库,一个库的所有表都会发送到test的topic下
# 例子4:testA:test\..* 指定匹配的表达式,针对匹配的表会发送到testA的topic下
# 例子5:test0:test,test1:test1\.test1,指定多个表达式,会将test库的表都发送到test0的topic下,test1\.test1的表发送到对应的test1的topic下,其余的表发送到默认的canal.mq.topic值
# 大家可以结合自己的业务需求,设置匹配规则,建议MQ开启自动创建topic的能力

# canal.mq.partitionHash 表达式说明
# canal 1.1.3版本之后, 支持配置格式:schema.table:pk1^pk2,多个配置之间使用逗号分隔

# 例子1:test\.test:pk1^pk2 指定匹配的单表,对应的hash字段为pk1 + pk2
# 例子2:.*\..*:id 正则匹配,指定所有正则匹配的表对应的hash字段为id
# 例子3:.*\..*:$pk$ 正则匹配,指定所有正则匹配的表对应的hash字段为表主键(自动查找)
# 例子4: 匹配规则啥都不写,则默认发到0这个partition上
# 例子5:.*\..* ,不指定pk信息的正则匹配,将所有正则匹配的表,对应的hash字段为表名
# 按表hash: 一张表的所有数据可以发到同一个分区,不同表之间会做散列 (会有热点表分区过大问题)
# 例子6: test\.test:id,.\..* , 针对test的表按照id散列,其余的表按照table散列
# 注意:大家可以结合自己的业务需求,设置匹配规则,多条匹配规则之间是按照顺序进行匹配(命中一条规则就返回)

其余配置可参考官网wiki文档:alibaba/canal

总结:

总体的搭建过程还是比较简单的,admin模块为我们提供了一个可视化的管理界面,简单易用,单独使用canal-server模块也可以,但是修改配置起来比较麻烦。

此外,在整个过程还是遇到了一些问题的,以下介绍几个踩坑点:

  • canal监听时,有些库名和表名是空的,导致在动态topic情况下,kafka提示无效的topic名称,我们在配置中将空库名和表名的消息过滤掉就好,将默认的.*\..*改为.+\..+
  • 我的kafka是在本地主机的,需要增加kafka配置advertised.listeners=PLAINTEXT://host.docker.internal:9092 ,容器中的应用才能正常访问kafka服务端
  • 刚开始在启动canal-server时,总是连接admin服务失败,页面上所有接口也无响应,但是docker显示admin容器还在运行,进入canal-admin容器后查看日志无报错,但是后台的java进程已经没有了,困扰了挺久,后来发现我的docker内存配置只有2G,推测是内存不足停掉了,于是将docker内存配置改为8G,问题解决

本方案仅限于本地学习与测试,生产环境应使用HA模式部署,详见:github.com/alibaba/can…

参考地址