MySQL配置

对于自建 MySQL , 需要先开启 Binlog 写入功能，配置 binlog-format 为 ROW 模式，my.cnf 中配置如下

[mysqld]
log-bin=mysql-bin # 开启 binlog
binlog-format=ROW # 选择 ROW 模式
server_id=10010 # 配置 MySQL replaction 需要定义，不要和 canal 的 slaveId 重复

授权 canal 链接 MySQL 账号具有作为 MySQL slave 的权限, 如果已有账户可直接 grant(或者选择已有的从节点账号)

CREATE USER canal IDENTIFIED BY 'canal';
GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%';
-- GRANT ALL PRIVILEGES ON *.* TO 'canal'@'%' ;
FLUSH PRIVILEGES;

canal容器的创建与启动

拉取所需要的镜像

# canal-admin(Web可视化页面)
🍓 ➜  ~ docker pull canal/canal-admin
# canal-server(canal的对应服务)
🍓 ➜  ~ docker pull canal/canal-server

下载canal-admin的运行脚本

wget https://raw.githubusercontent.com/alibaba/canal/master/docker/run_admin.sh

启动并运行canal-admin

# 以8089端口启动canal-admin
sh run_admin.sh -e server.port=8089 \
         -e canal.adminUser=admin \
         -e canal.adminPasswd=admin

# 指定外部的mysql作为admin的库【用不到】
sh run_admin.sh \
    -e server.port=8089 \
    -e spring.datasource.address=host.docker.internal \
    -e spring.datasource.database=xxx \
    -e spring.datasource.username=root \
    -e spring.datasource.password=xxx

打开浏览器，访问http://localhost:8089，默认账号密码为admin/123456，首页如图所示

下载canal-server的运行脚本

wget https://raw.githubusercontent.com/alibaba/canal/master/docker/run.sh

启动canal-server

单机模式启动canal-server

admin管理模式启动并运行canal-server，本案例以单机模式为例

# 以单机模式启动
run.sh -e canal.admin.manager=127.0.0.1:8089 \
         -e canal.admin.port=11110 \
         -e canal.admin.user=admin \
         -e canal.admin.passwd=4ACFE3202A5FF5CF467898FC58AAB1D615029441

PS：在docker容器中，若非主机网络模式，127.0.0.1并非为主机的地址，Mac版可使用**host.docker.internal**访问到主机，Linux暂不支持，需要手动在容器中查询到主机的ip，替换掉上面的127.0.0.1

启动成功后，刷新admin页面的server列表，会出现刚刚启动的canal-server：

至此，canal的创建与启动已经完成，在管理页面进行配置操作即可

集群模式启动canal-server

admin管理模式启动并运行canal-server，本案例以集群模式为例，集群模式需手动创建一个集群，并且提供zookeeper地址，然后启动参数加上集群名称即可，配置与单机模式一样，只不过一个集群共用一个server配置

集群模式启动，自动加入test-zk集群(cluster可在页面先配置)

需要在admin页面打开主配置,然后载入模板修改配置文件--canal.zkServers

# 如果使用集群模式，需要在canal-admin管理页面创建集群，同一个集群使用相同的配置文件
run.sh -e canal.admin.manager=127.0.0.1:8089 \
         -e canal.admin.port=11110 \
         -e canal.admin.user=admin \
         -e canal.admin.passwd=4ACFE3202A5FF5CF467898FC58AAB1D615029441 
         -e canal.admin.register.cluster=test-zk

启动成功后,刷新页面的server列表，会出现下面情况

canal核心配置介绍

canal的配置分为server配置和instance配置，一个server可包含多个instance，部分配置

server配置

# 服务模式，支持tcp, kafka, rocketMQ, rabbitMQ
canal.serverMode = kafka

### kafka配置
# 该值为false时，发送的消息为二进制压缩格式，需要客户端使用protobuf工具解析，为true时，发送json文本
canal.mq.flatMessage = true
# kafka服务器地址
kafka.bootstrap.servers = host.docker.internal:9092

instance配置

# 监听的数据库地址
canal.instance.master.address=host.docker.internal:3306
# 数据库的用户名
canal.instance.dbUsername=root
# 数据库密码
canal.instance.dbPassword=123456
# 表名过滤，正则表达式，(${库名}.${表名})
canal.instance.filter.regex=.+\..+

# kafka topic名称，所有的消息都将放入此topic
# canal.mq.topic=example
# 根据库名可表名动态topic
canal.mq.dynamicTopic=.+\..+
# 发送分区
canal.mq.partition=0
# 分区数量
#canal.mq.partitionsNum=3
# 根据库名和表名计算出发送分区(Hash)，可控制同一个库/表有序
#canal.mq.partitionHash=test.table:id^name,.*\..*

### 动态topic和partition的详细说明
# canal.mq.dynamicTopic 表达式说明
# canal 1.1.3版本之后, 支持配置格式：schema 或 schema.table，多个配置之间使用逗号或分号分隔

# 例子1：test\.test 指定匹配的单表，发送到以test_test为名字的topic上
# 例子2：.*\..* 匹配所有表，则每个表都会发送到各自表名的topic上
# 例子3：test 指定匹配对应的库，一个库的所有表都会发送到库名的topic上
# 例子4：test\..* 指定匹配的表达式，针对匹配的表会发送到各自表名的topic上
# 例子5：test,test1\.test1，指定多个表达式，会将test库的表都发送到test的topic上，test1\.test1的表发送到对应的test1_test1 topic上，其余的表发送到默认的canal.mq.topic值
# 为满足更大的灵活性，允许对匹配条件的规则指定发送的topic名字，配置格式：topicName:schema 或 topicName:schema.table

# 例子1: test:test\.test 指定匹配的单表，发送到以test为名字的topic上
# 例子2: test:.*\..* 匹配所有表，因为有指定topic，则每个表都会发送到test的topic下
# 例子3: test:test 指定匹配对应的库，一个库的所有表都会发送到test的topic下
# 例子4：testA:test\..* 指定匹配的表达式，针对匹配的表会发送到testA的topic下
# 例子5：test0:test,test1:test1\.test1，指定多个表达式，会将test库的表都发送到test0的topic下，test1\.test1的表发送到对应的test1的topic下，其余的表发送到默认的canal.mq.topic值
# 大家可以结合自己的业务需求，设置匹配规则，建议MQ开启自动创建topic的能力

# canal.mq.partitionHash 表达式说明
# canal 1.1.3版本之后, 支持配置格式：schema.table:pk1^pk2，多个配置之间使用逗号分隔

# 例子1：test\.test:pk1^pk2 指定匹配的单表，对应的hash字段为pk1 + pk2
# 例子2：.*\..*:id 正则匹配，指定所有正则匹配的表对应的hash字段为id
# 例子3：.*\..*:$pk$ 正则匹配，指定所有正则匹配的表对应的hash字段为表主键(自动查找)
# 例子4: 匹配规则啥都不写，则默认发到0这个partition上
# 例子5：.*\..* ，不指定pk信息的正则匹配，将所有正则匹配的表,对应的hash字段为表名
# 按表hash: 一张表的所有数据可以发到同一个分区，不同表之间会做散列 (会有热点表分区过大问题)
# 例子6: test\.test:id,.\..* , 针对test的表按照id散列,其余的表按照table散列
# 注意：大家可以结合自己的业务需求，设置匹配规则，多条匹配规则之间是按照顺序进行匹配(命中一条规则就返回)

其余配置可参考官网wiki文档：alibaba/canal

总结：

总体的搭建过程还是比较简单的，admin模块为我们提供了一个可视化的管理界面，简单易用，单独使用canal-server模块也可以，但是修改配置起来比较麻烦。

此外，在整个过程还是遇到了一些问题的，以下介绍几个踩坑点：

canal监听时，有些库名和表名是空的，导致在动态topic情况下，kafka提示无效的topic名称，我们在配置中将空库名和表名的消息过滤掉就好，将默认的.*\..*改为.+\..+
我的kafka是在本地主机的，需要增加kafka配置advertised.listeners=PLAINTEXT://host.docker.internal:9092 ，容器中的应用才能正常访问kafka服务端
刚开始在启动canal-server时，总是连接admin服务失败，页面上所有接口也无响应，但是docker显示admin容器还在运行，进入canal-admin容器后查看日志无报错，但是后台的java进程已经没有了，困扰了挺久，后来发现我的docker内存配置只有2G，推测是内存不足停掉了，于是将docker内存配置改为8G，问题解决

本方案仅限于本地学习与测试，生产环境应使用HA模式部署，详见：github.com/alibaba/can…

参考地址

canal在docker下的搭建-配合canal-admin/

docker搭建canal-admin