binlog redis 验证订单_基于binlog的canal组件有哪些使用场景（三）？

目录前言canal介绍canal工作原理mysql配置canal架构canal-ha架构canal应用场景总结前言前两篇文章老顾介绍了基于binlog日志，同步多机房的mysql；推荐使用canal组件；今天老顾就来介绍一下canal基本原理，以及一些常用的使用场景。canal介绍Canal是阿里开源的一款基于Mysql数据库binlog的增量订阅和消费组件，通过它可以订阅数据库的binlog日志

weixin_39998541

108人浏览 · 2021-02-03 09:10:26

weixin_39998541 · 2021-02-03 09:10:26 发布

前言

前两篇文章老顾介绍了基于binlog日志，同步多机房的mysql；推荐使用canal组件；今天老顾就来介绍一下canal基本原理，以及一些常用的使用场景。

canal介绍

Canal是阿里开源的一款基于Mysql数据库binlog的增量订阅和消费组件，通过它可以订阅数据库的binlog日志，然后进行一些数据消费，如数据镜像、数据异构、数据索引、缓存更新等。相对于消息队列，通过这种机制可以实现数据的有序化和一致性。

github地址：https://github.com/alibaba/canal

完整wiki地址：https://github.com/alibaba/canal/wiki

Canal工作原理

原理很简单：

Canal模拟MySQL的slave的交互协议，伪装成mysql slave，并将转发协议发送到MySQL Master服务器。
MySQL Master接收到存储请求并开始将二进制日志推送到slave(即canal)。
Canal将二进制日志对象解析为自己的数据类型(原始字节流)

如图所示：

mysql配置

基于binlog则需要开启mysql的binlog日志

(1)查看当前mysql是否开启binlog模式。

SHOW VARIABLES LIKE '%log_bin%'

(2)修改/etc/my.cnf 需要开启binlog模式。

[mysqld]log-bin=mysql-binbinlog-format=ROWserver_id=1

修改完成之后，重启mysqld的服务。

(3) 进入mysql

mysql -h localhost -u root -p

(4) 创建账号用于测试使用

使用root账号创建用户并授予权限

create user canal@'%' IDENTIFIED by 'canal';GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT,SUPER ON *.* TO 'canal'@'%';FLUSH PRIVILEGES;

Canal架构

server代表一个canal运行实例，对应于一个jvm

instance对应于一个数据队列

instance模块：

eventParser (数据源接入，模拟slave协议和master进行交互，协议解析)
eventSink (Parser和Store链接器，进行数据过滤，加工，分发的工作)
eventStore (数据存储)
metaManager (增量订阅&消费信息管理器)

Canal-HA机制

canal是支持HA的，其实现机制是依赖zookeeper来实现的，用到的特性有watcher和EPHEMERAL节点(和session生命周期绑定)，与HDFS的HA类似。

canal的ha分为两部分，canal server和canal client分别有对应的ha实现

canal server: 为了减少对mysql dump的请求，不同server上的instance(不同server上的相同instance)要求同一时间只能有一个处于running，其他的处于standby状态(standby是instance的状态)。
canal client: 为了保证有序性，一份instance同一时间只能由一个canal client进行get/ack/rollback操作，否则客户端接收无法保证有序。

server ha的架构图如下：

大致步骤：

canal server要启动某个canal instance时都先向zookeeper_进行一次尝试启动判断_(实现：创建EPHEMERAL节点，谁创建成功就允许谁启动)
创建zookeeper节点成功后，对应的canal server就启动对应的canal instance，没有创建成功的canal instance就会处于standby状态。
一旦zookeeper发现canal server A创建的instance节点消失后，立即通知其他的canal server再次进行步骤1的操作，重新选出一个canal server启动instance。
canal client每次进行connect时，会首先向zookeeper询问当前是谁启动了canal instance，然后和其建立链接，一旦链接不可用，会重新尝试connect。

Canal Client的方式和canal server方式类似，也是利用zookeeper的抢占EPHEMERAL节点的方式进行控制.

Canal应用场景

1、同步缓存redis/全文搜索ES

canal一个常见应用场景是同步缓存/全文搜索，当数据库变更后通过binlog进行缓存/ES的增量更新。当缓存/ES更新出现问题时，应该回退binlog到过去某个位置进行重新同步，并提供全量刷新缓存/ES的方法，如下图所示。

之前的老顾有篇文章中介绍了缓存与数据库一致性的问题，有一个方案就是binlog日志；小伙伴们可以去看看

2、下发任务

另一种常见应用场景是下发任务，当数据变更时需要通知其他依赖系统。其原理是任务系统监听数据库变更，然后将变更的数据写入MQ/kafka进行任务下发，比如商品数据变更后需要通知商品详情页、列表页、搜索页等先关系统。这种方式可以保证数据下发的精确性，通过MQ发送消息通知变更缓存是无法做到这一点的，而且业务系统中不会散落着各种下发MQ的代码，从而实现了下发归集，如下图所示。

3、数据异构

在大型网站架构中，DB都会采用分库分表来解决容量和性能问题，但分库分表之后带来的新问题。比如不同维度的查询或者聚合查询，此时就会非常棘手。一般我们会通过数据异构机制来解决此问题。

所谓的数据异构，那就是将需要join查询的多表按照某一个维度又聚合在一个DB中。让你去查询。canal就是实现数据异构的手段之一。

用canal来订阅binlog，可异构系统

4、冗余字段

在微服务设计中，每个服务都会对应数据库以及表；虽然微服务很强大，增加很多系统灵活性；但是也增加了复杂度；如：数据库和表的独立分离，导致有些join查询不便。我们常用的方法就是设计表字段的冗余。

但是冗余方案，会有一些问题

上面2张表，位于不同的微服务，即不同的数据库。为了方便在查询order订单的时候，显示下单用户的真实姓名；就在order表中对用户truename进行了冗余设计。但是如果user的服务对user的truename进行更新修改；那么就导致了order表中的truename与user的truename不一致。

上面的场景在我们实际开发过程是非常常见的。当然为了解决这个问题，用binlog方式就非常简单了；利用canal组件即可解决。