目录

1、什么是flinkCDC

3、启动flink集群


1、什么是flinkCDC

        FlinkCDC (Flink Change Data Capture) 是一个基于 Apache Flink 的开源项目,是flink生态的一部分,利用flink强大的流处理能力,能实时数据变更捕获和同步。它主要用于从数据库中捕获变更数据,并将这些变更数据流式地传输到流处理引擎中,以便进行实时处理、分析和同步。FlinkCDC 可以监控数据库中的表,并实时捕获表中的 INSERT、UPDATE、DELETE 等数据变更操作,将这些变更以流的形式传输给 Flink 流处理引擎。因此,FlinkCDC 可以帮助用户构建实时数据处理和分析的解决方案,例如实时数据仓库、实时数据分析等。FlinkCDC 针对不同的数据库引擎提供了相应的实现,例如针对 MySQL、PostgreSQL、Oracle 等数据库,均有相应的 FlinkCDC 实现。这使得 FlinkCDC 能够适用于不同类型的数据库,为实时数据变更捕获和处理提供了灵活的选择。

flink依赖java环境,请预先安装java环境,最好是jdk11版本。

去flink官网下载最新版:Downloads | Apache Flink

我下的是Apache Flink 1.18.0版本。

在linux创建目录,其中checkpoint 、savepoint目录用于存放flinkcdc的检查点,不然会内存不足的错误:

mkdir -p /usr/flink /usr/flink/checkpoint /usr/flink/savepoint

然后把flink上传至liunx。登录liunx,进入

cd /usr/flink

解压:

tar -zxvf flink-1.18.0-bin-scala_2.12.tgz

修改flink配置文件flink-conf.yaml:

vi /usr/flink/flink-1.18.0/conf/flink-conf.yaml

修改以下值,若找不到就新增:

jobmanager.memory.process.size: 3gb  #作业管理器进程总内存

taskmanager.numberOfTaskSlots: 5 #任务槽(task slot)数量,每个TaskSlot对应一个CPU核心

taskmanager.memory.managed.size: 64mb #任务管理器托管内存

rest.bind-address: 0.0.0.0  #用于连接flink web UI

rest.address: 0.0.0.0  #用于连接flink web UI

state.checkpoints.dir: file:///usr/flink/checkpoint  #用于存放flickcdc检查点

state.savepoints.dir: file:///usr/flink/savepoint  #用于存放flickcdc检查点

3、启动flink集群

/usr/flink/flink-1.18.0/bin/start-cluster.sh

用jps命令查看是否启动成功:

启动完成后再浏览器输入地址:

http://ip:8081/ 把ip替换成你的IP地址,flink默认端口8081,想修改的可以在flink-conf.yaml中修改rest.port: 8081

关闭flink集群

/usr/flink/flink-1.18.0/bin/stop-cluster.sh

至此flink安装启动完成。接来下是搞flinkcdc同步oracle至apache doris

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐