MySQL配置
-
对于自建 MySQL , 需要先开启 Binlog 写入功能,配置 binlog-format 为 ROW 模式,my.cnf 中配置如下
[mysqld] log-bin=mysql-bin # 开启 binlog binlog-format=ROW # 选择 ROW 模式 server_id=10010 # 配置 MySQL replaction 需要定义,不要和 canal 的 slaveId 重复 -
授权 canal 链接 MySQL 账号具有作为 MySQL slave 的权限, 如果已有账户可直接 grant(或者选择已有的从节点账号)
CREATE USER canal IDENTIFIED BY 'canal'; GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%'; -- GRANT ALL PRIVILEGES ON *.* TO 'canal'@'%' ; FLUSH PRIVILEGES;
canal容器的创建与启动
-
拉取所需要的镜像
# canal-admin(Web可视化页面) 🍓 ➜ ~ docker pull canal/canal-admin # canal-server(canal的对应服务) 🍓 ➜ ~ docker pull canal/canal-server -
下载canal-admin的运行脚本
wget https://raw.githubusercontent.com/alibaba/canal/master/docker/run_admin.sh -
启动并运行canal-admin
# 以8089端口启动canal-admin sh run_admin.sh -e server.port=8089 \ -e canal.adminUser=admin \ -e canal.adminPasswd=admin # 指定外部的mysql作为admin的库【用不到】 sh run_admin.sh \ -e server.port=8089 \ -e spring.datasource.address=host.docker.internal \ -e spring.datasource.database=xxx \ -e spring.datasource.username=root \ -e spring.datasource.password=xxx -
打开浏览器,访问http://localhost:8089,默认账号密码为admin/123456,首页如图所示
-
下载canal-server的运行脚本
wget https://raw.githubusercontent.com/alibaba/canal/master/docker/run.sh -
启动canal-server
-
单机模式启动canal-server
admin管理模式启动并运行canal-server,本案例以单机模式为例
# 以单机模式启动
run.sh -e canal.admin.manager=127.0.0.1:8089 \
-e canal.admin.port=11110 \
-e canal.admin.user=admin \
-e canal.admin.passwd=4ACFE3202A5FF5CF467898FC58AAB1D615029441
PS:在docker容器中,若非主机网络模式,127.0.0.1并非为主机的地址,Mac版可使用**host.docker.internal**访问到主机,Linux暂不支持,需要手动在容器中查询到主机的ip,替换掉上面的127.0.0.1
启动成功后,刷新admin页面的server列表,会出现刚刚启动的canal-server:
至此,canal的创建与启动已经完成,在管理页面进行配置操作即可
-
集群模式启动canal-server
admin管理模式启动并运行canal-server,本案例以集群模式为例,集群模式需手动创建一个集群,并且提供zookeeper地址,然后启动参数加上集群名称即可,配置与单机模式一样,只不过一个集群共用一个server配置
集群模式启动,自动加入test-zk集群(cluster可在页面先配置)
需要在admin页面打开主配置,然后载入模板修改配置文件--canal.zkServers
# 如果使用集群模式,需要在canal-admin管理页面创建集群,同一个集群使用相同的配置文件
run.sh -e canal.admin.manager=127.0.0.1:8089 \
-e canal.admin.port=11110 \
-e canal.admin.user=admin \
-e canal.admin.passwd=4ACFE3202A5FF5CF467898FC58AAB1D615029441
-e canal.admin.register.cluster=test-zk
启动成功后,刷新页面的server列表,会出现下面情况
canal核心配置介绍
canal的配置分为server配置和instance配置,一个server可包含多个instance,部分配置
server配置
# 服务模式,支持tcp, kafka, rocketMQ, rabbitMQ
canal.serverMode = kafka
### kafka配置
# 该值为false时,发送的消息为二进制压缩格式,需要客户端使用protobuf工具解析,为true时,发送json文本
canal.mq.flatMessage = true
# kafka服务器地址
kafka.bootstrap.servers = host.docker.internal:9092
instance配置
# 监听的数据库地址
canal.instance.master.address=host.docker.internal:3306
# 数据库的用户名
canal.instance.dbUsername=root
# 数据库密码
canal.instance.dbPassword=123456
# 表名过滤,正则表达式,(${库名}.${表名})
canal.instance.filter.regex=.+\..+
# kafka topic名称,所有的消息都将放入此topic
# canal.mq.topic=example
# 根据库名可表名动态topic
canal.mq.dynamicTopic=.+\..+
# 发送分区
canal.mq.partition=0
# 分区数量
#canal.mq.partitionsNum=3
# 根据库名和表名计算出发送分区(Hash),可控制同一个库/表有序
#canal.mq.partitionHash=test.table:id^name,.*\..*
### 动态topic和partition的详细说明
# canal.mq.dynamicTopic 表达式说明
# canal 1.1.3版本之后, 支持配置格式:schema 或 schema.table,多个配置之间使用逗号或分号分隔
# 例子1:test\.test 指定匹配的单表,发送到以test_test为名字的topic上
# 例子2:.*\..* 匹配所有表,则每个表都会发送到各自表名的topic上
# 例子3:test 指定匹配对应的库,一个库的所有表都会发送到库名的topic上
# 例子4:test\..* 指定匹配的表达式,针对匹配的表会发送到各自表名的topic上
# 例子5:test,test1\.test1,指定多个表达式,会将test库的表都发送到test的topic上,test1\.test1的表发送到对应的test1_test1 topic上,其余的表发送到默认的canal.mq.topic值
# 为满足更大的灵活性,允许对匹配条件的规则指定发送的topic名字,配置格式:topicName:schema 或 topicName:schema.table
# 例子1: test:test\.test 指定匹配的单表,发送到以test为名字的topic上
# 例子2: test:.*\..* 匹配所有表,因为有指定topic,则每个表都会发送到test的topic下
# 例子3: test:test 指定匹配对应的库,一个库的所有表都会发送到test的topic下
# 例子4:testA:test\..* 指定匹配的表达式,针对匹配的表会发送到testA的topic下
# 例子5:test0:test,test1:test1\.test1,指定多个表达式,会将test库的表都发送到test0的topic下,test1\.test1的表发送到对应的test1的topic下,其余的表发送到默认的canal.mq.topic值
# 大家可以结合自己的业务需求,设置匹配规则,建议MQ开启自动创建topic的能力
# canal.mq.partitionHash 表达式说明
# canal 1.1.3版本之后, 支持配置格式:schema.table:pk1^pk2,多个配置之间使用逗号分隔
# 例子1:test\.test:pk1^pk2 指定匹配的单表,对应的hash字段为pk1 + pk2
# 例子2:.*\..*:id 正则匹配,指定所有正则匹配的表对应的hash字段为id
# 例子3:.*\..*:$pk$ 正则匹配,指定所有正则匹配的表对应的hash字段为表主键(自动查找)
# 例子4: 匹配规则啥都不写,则默认发到0这个partition上
# 例子5:.*\..* ,不指定pk信息的正则匹配,将所有正则匹配的表,对应的hash字段为表名
# 按表hash: 一张表的所有数据可以发到同一个分区,不同表之间会做散列 (会有热点表分区过大问题)
# 例子6: test\.test:id,.\..* , 针对test的表按照id散列,其余的表按照table散列
# 注意:大家可以结合自己的业务需求,设置匹配规则,多条匹配规则之间是按照顺序进行匹配(命中一条规则就返回)
其余配置可参考官网wiki文档:alibaba/canal
总结:
总体的搭建过程还是比较简单的,admin模块为我们提供了一个可视化的管理界面,简单易用,单独使用canal-server模块也可以,但是修改配置起来比较麻烦。
此外,在整个过程还是遇到了一些问题的,以下介绍几个踩坑点:
- canal监听时,有些库名和表名是空的,导致在动态topic情况下,kafka提示无效的topic名称,我们在配置中将空库名和表名的消息过滤掉就好,将默认的
.*\..*改为.+\..+ - 我的kafka是在本地主机的,需要增加kafka配置
advertised.listeners=PLAINTEXT://host.docker.internal:9092,容器中的应用才能正常访问kafka服务端 - 刚开始在启动canal-server时,总是连接admin服务失败,页面上所有接口也无响应,但是docker显示admin容器还在运行,进入canal-admin容器后查看日志无报错,但是后台的java进程已经没有了,困扰了挺久,后来发现我的docker内存配置只有2G,推测是内存不足停掉了,于是将docker内存配置改为8G,问题解决
本方案仅限于本地学习与测试,生产环境应使用HA模式部署,详见:github.com/alibaba/can…