MongoShake:数据迁移之王,MongoDB领域的绝对霸主,让数据轻松穿梭无边界!
简介MongoShake 是一个用于 MongoDB 数据库的数据复制工具,它可以实现 MongoDB 数据库之间的数据同步、迁移和备份。以下是 MongoShake 的主要作用:数据同步:MongoShake 可以将一个 MongoDB 数据库中的数据实时同步到另一个 MongoDB 数据库,保持数据的一致性。这对于构建多数据中心架构、实现高可用性和灾难恢复非常有用。数据迁移:Mong...
简介
MongoShake 是一个用于 MongoDB 数据库的数据复制工具,它可以实现 MongoDB 数据库之间的数据同步、迁移和备份。以下是 MongoShake 的主要作用:
-
数据同步:MongoShake 可以将一个 MongoDB 数据库中的数据实时同步到另一个 MongoDB 数据库,保持数据的一致性。这对于构建多数据中心架构、实现高可用性和灾难恢复非常有用。
-
数据迁移:MongoShake 支持将一个 MongoDB 数据库中的数据迁移到另一个 MongoDB 数据库,包括全量数据和增量数据。这对于数据中心迁移、升级 MongoDB 版本或迁移至云端 MongoDB 服务等场景非常有用。
-
数据备份:MongoShake 可以将 MongoDB 数据库中的数据备份到另一个 MongoDB 实例,确保数据的安全性和可靠性。备份数据可以用于紧急恢复、数据分析或长期存储。
-
数据分发:MongoShake 支持将一个 MongoDB 数据库中的数据分发到多个目标 MongoDB 数据库,实现数据的复制和分发。
-
故障转移:当 MongoDB 主节点发生故障时,MongoShake 可以自动将从节点提升为新的主节点,确保系统的可用性和数据的连续性。
总的来说,MongoShake 是一个功能强大的 MongoDB 数据复制工具,可以帮助用户实现数据同步、迁移、备份和分发,提高 MongoDB 数据库的可用性、可靠性和灵活性。
迁移配置
1、从MongoDB分片集群版同步到MongoDB分片集群版
需改动的如下:
vim collector.conf
# 源端shard地址:
mongo_urls = mongodb://username1:password1@10.1.1.1:1001,10.1.1.2:2002,10.1.1.3:3003/admin;mongodb://username2:password2@10.2.2.1:1001,10.2.2.2:2002,10.2.2.3:3003/admin
# 源端sharding的cs的地址:
mongo_cs_url = mongodb://username1:password1@10.5.5.5:5555,10.5.5.6:5556/admin
# 源端mongos地址
mongo_s_url = mongodb://username_s:password_s@10.1.1.10:1010/admin
# all 表示全量+增量,full表示仅全量,incr表示仅增量
sync_mode = all
# 目标mongos地址
incr_sync.tunnel.address = mongodb://username:password@20.1.1.1:2021,username:password@20.2.2.2:2022,username:password@20.3.3.3:3033
# 拉取增量的方式
incr_sync.mongo_fetch_method = oplog
# checkpoint写入的地址,默认对于写入源端,不填写即可
checkpoint.storage.url =
# 阿里云MongoDB serverless集群请配置aliyun_serverless,自建的不需要配置
special.source.db.flag =
# 白名单迁移的集合
filter.namespace.white =test.table1
执行迁移:
[root@sql-audit-20230526 mongo-shake-v2.8.4]# ./collector.linux -conf=collector.conf -verbose 0
注意事项:
如果该集合迁移后,打算重新再次迁移该集合,需要手动删除源库mongoshake中ckpt_default集合,否则在此迁移,全量数据迁移不全,增量数据没有问题。
2、从只暴露mongos地址的MongoDB分片集群版同步到MongoDB分片集群版
# 源端mongos地址
mongo_s_url = mongodb://username1:password1@10.1.1.1:1001,username1:password1@10.1.1.2:2002,username1:password1@10.1.1.3:3003/admin?connect=direct
# all 表示全量+增量,full表示仅全量,incr表示仅增量
sync_mode = all
# 目标mongos地址
tunnel.address = mongodb://username:password@20.1.1.1:2021,username:password@20.2.2.2:2022,username:password@20.3.3.3:3033/admin
# 这里只可以为change_stream,支持>=4.0.1版本。
incr_sync.mongo_fetch_method = change_stream
# checkpoint写入的地址,默认对于写入源端,不填写即可
checkpoint.storage.url =
# 阿里云MongoDB serverless集群请配置aliyun_serverless,自建的不需要配置
special.source.db.flag =
# 白名单迁移的集合
filter.namespace.white =test.table1
3、从MongoDB副本集同步到MongoDB副本集
# 源端连接串信息
mongo_urls = mongodb://username:password@10.1.1.1:1001,10.2.2.2:2002,10.3.3.3:3003/admin
# all 表示全量+增量,full表示仅全量,incr表示仅增量
sync_mode = all
#目的端连接串信息
incr_sync.tunnel.address = mongodb://username:password@10.5.5.5:5005,10.6.6.6:6006,10.7.7.7:7007/admin
# 如果希望以change stream拉取,该值需要配置change_stream,支持>=4.0.1版本。
incr_sync.mongo_fetch_method = oplog
# checkpoint写入的地址,默认对于写入源端,不填写即可
checkpoint.storage.url =
# 阿里云MongoDB serverless集群请配置aliyun_serverless,自建的不需要配置
special.source.db.flag =
# 白名单迁移的集合
filter.namespace.white =test.table1
4、从MongoDB副本集同步到MongoDB分片集群版
# 源端连接串信息
mongo_urls = mongodb://username:password@10.1.1.1:1001,10.2.2.2:2002,10.3.3.3:3003/admin
# all 表示全量+增量,full表示仅全量,incr表示仅增量
sync_mode = all
# 目标mongos地址
incr_sync.tunnel.address = mongodb://username:password@20.1.1.1:2021,username:password@20.2.2.2:2022,username:password@20.3.3.3:3033/admin
# 如果希望以change stream拉取,该值需要配置change_stream,支持>=4.0.1版本。
incr_sync.mongo_fetch_method = oplog
# checkpoint写入的地址,默认对于写入源端,不填写即可
checkpoint.storage.url =
# 阿里云MongoDB serverless集群请配置aliyun_serverless,自建的不需要配置
special.source.db.flag =
# 白名单迁移的集合
filter.namespace.white =test.table1
5、从MongoDB集群版同步到MongoDB副本集
需改动的如下:
vim collector.conf
# 源端shard地址:
mongo_urls = mongodb://username1:password1@10.1.1.1:1001,10.1.1.2:2002,10.1.1.3:3003/admin;mongodb://username2:password2@10.2.2.1:1001,10.2.2.2:2002,10.2.2.3:3003/admin
# 源端sharding的cs的地址:
mongo_cs_url = mongodb://username1:password1@10.5.5.5:5555,10.5.5.6:5556/admin
# 源端mongos地址
mongo_s_url = mongodb://username_s:password_s@10.1.1.10:1010/admin
# all 表示全量+增量,full表示仅全量,incr表示仅增量
sync_mode = all
# 目的端连接串信息
incr_sync.tunnel.address = mongodb://username:password@10.5.5.5:5005,10.6.6.6:6006,10.7.7.7:7007/admin
# 如果希望以change stream拉取,该值需要配置change_stream,支持>=4.0.1版本。
incr_sync.mongo_fetch_method = oplog
# 由于是多个分片同步到一个,所以这里不能置为true
full_sync.collection_exist_drop = false
# checkpoint写入的地址,默认对于写入源端,不填写即可
checkpoint.storage.url =
# 阿里云MongoDB serverless集群请配置aliyun_serverless,自建的不需要配置
special.source.db.flag =
# 白名单迁移的集合
filter.namespace.white =test.table1
6、阿里云云上MongoDB副本集的双向同步
云上副本集的双向同步可以参考副本集的单向同步,但是需要注意的有以下几点,假设A和B之间双向同步:
-
需要搭建2个mongoshake,一个从A到B,另一个从B到A
-
两条mongoshake不能同时用全量+增量(all)模式,正常应该是一个库为空(假设B),另一个有数据。那么从A到B先发起一次全量+增量同步,等待全量同步完毕以后,再从B到A发起一次增量同步。
-
双向同步需要依赖gid的开启,这个可以联系售后支持,开启gid将会重启实例造成秒级别闪断。
-
开启后将对应的gid配置在参数(incr_sync.oplog.gids里面,v2.4之前名字是oplog.gids),比如源端A的gid是100,目的端是B的gid是200,那么从A->B的MongoShake链路请配置incr_sync.oplog.gids = 100,从B到A的请配置incr_sync.oplog.gids = 200。
-
gid用于记录数据的产生地,比如从A产生的数据导入到B以后,不会被再导入回A,这样就不会产生环形复制。需要注意的是,这个gid只能用于增量,这也是第2条为什么一个方向通道是全量+增量,另一个方向通道需要搭建增量的原因。
-
云下开源的mongodb不能使用双向同步,因为gid的修改是在内核里面,所以开源不支持。
-
sharding同样也支持双向同步
7、实现MongoDB实例间的延迟同步
执行vi collector.conf命令配置MongoShake。各参数说明请参见MongoShake参数表。找到incr_sync.target_delay参数,根据实际业务需求设置该参数的值,单位为秒。本示例中将延迟时间设置为30分钟。
incr_sync.target_delay = 1800
运行后,此时您在源DB中执行的任何更改,都将会在30分钟后同步到从实例。
checkpoint存储的信息,在源库mongoshake中
-verbose参数:
-
当参数设置为 0 时,日志将仅输出到文件中。
-
当参数设置为 1 时,日志将同时输出到文件和标准输出(stdout)中。
-
当参数设置为 2 时,日志将仅输出到标准输出中。
配置文件详解
# 当前配置文件的版本号,请不要修改该值。
conf.version = 10
# --------------------------- global configuration ---------------------------
# collector name
# id用于输出pid文件等信息,以防止同一个目录下有多个mongoshake同时启动
id = mongoshake
# 是否启动主备模式。false表示只能启动1个mongoshake。配置true的话,用户可以启动2个mongoshake,拉取同一个源MongoDB,mongoshake将会自动选主,
备在监测到主挂掉后,会接管过同步服务。注意,如果主是在全量同步阶段挂掉,那么备接管过服务是不会进行断点续传,而是会从头开始同步,而且如果配置项
不当,可能还会有报错。主备模式主要用于在增量环节的HA容错切换
master_quorum = false
# 全量和增量的restful监控端口,可以用curl查看内部监控metric统计情况。
# `curl 127.0.0.1:9100`.
# usage: `./mongoshake-stat --port=9100`
full_sync.http_port = 9101
incr_sync.http_port = 9100
# profiling on net/http/profile
# golang pprof端口,可以用户查看内部运行堆栈信息
system_profile_port = 9200
# 日志的级别:debug, info, warning, error
log.level = info
# log和pid文件的目录,如果不设置默认打到当前路径的logs目录。
log.dir =
# log文件名。
log.file = collector.log
# log是否及时缓存一部分再刷盘打印,默认为false以保证程序运行的性能,但可能程序中间崩溃退出,有部分log没有打印出来。
true的话对于每条log都会进行刷盘,但是会降低部分性能。默认false。
log.flush = false
# 同步模式,all表示全量+增量同步,full表示全量同步,incr表示增量同步。
sync_mode = all
# 源MongoDB连接串信息,逗号分隔同一个副本集内的结点,分号分隔分片sharding实例,免密模式
# 可以忽略“username:password@”,注意,密码里面不能含有'@'符号。
# 副本集:mongodb://username1:password1@primaryA,secondaryB,secondaryC
# 分片集shard:mongodb://username1:password1@primaryA,secondaryB,secondaryC;mongodb://username2:password2@primaryX,secondaryY,secondaryZ
mongo_urls = mongodb://username:password@127.0.0.1:20040,127.0.0.1:20041
# 源MongoDB的config server的地址,如果源端是sharding,需要填写这个配置。默认空。
mongo_cs_url =
# 如果源端采用change stream拉取,这里还需要配置至少一个mongos的地址,多个mongos地址以逗号(,)分割
# 源MongoDB的mongos地址,如果源端是sharding,需要填写这个配置
mongo_s_url =
# enable source ssl
mongo_ssl_root_ca_file =
# 通道类型,direct表示目的端对接的是MongoDB,rpc,file,kafka用于远程传输,mock仅用于调试。默认direct。
tunnel = direct
# tunnel target resource url
# 对于rpc,此处配置目的端receiver的rpc接收地址
# 对于tcp,此处配置目的端receiver的tcp接收地址。
# 对于file,此处配置文件的路径,比如data。
# 对于kafka,此处配置kafka的地址,例如topic@brokers1,brokers2,默认的topic是mongoshake,目前partition只用到0。
# direct模式用于直接写入MongoDB,其余模式用于一些分析,或者远距离传输场景,
# 注意,如果是非direct模式,需要通过receiver进行解析,具体参考FAQ文档。
# 此处配置通道的地址,格式与mongo_urls对齐。
#///需修改
tunnel.address = mongodb://127.0.0.1:20080
# 通道数据的类型,只用于kafka和file通道类型。
# raw是默认的类型,其采用聚合的模式进行写入和
# 读取,但是由于携带了一些控制信息,所以需要专门用receiver进行解析。
# json以json的格式写入kafka,便于用户直接读取。
# bson以bson二进制的格式写入kafka。通常情况,对于非kafka通道,用户不需要关注该参数
#///需修改
tunnel.message = raw
# how many partitions will be written, use some hash function in "incr_sync.shard_key".
# 如果目的端是kafka,最多启用多少个partition,最大不超过"incr_sync.worker"。默认1
tunnel.kafka.partition_number = 1
# tunnel json format, it'll only take effect in the case of tunnel.message = json
# and tunnel == kafka. Set canonical_extended_json if you want to use "Canonical
# Extended JSON Format", #559.
# 写入异构通道的json格式。如果希望使用Canonical Extended Json Format,则设置为
# canonical_extended_json
tunnel.json.format =
# if tunnel == driect or kafka and enable ssl
tunnel.mongo_ssl_root_ca_file =
# 连接模式,primary表示从主上拉取,secondaryPreferred表示优先从secondary拉取(默认建议值),
# standalone表示从任意单个结点拉取。
mongo_connect_mode = secondaryPreferred
# 黑白名单过滤,目前不支持正则,白名单表示通过的namespace,黑名单表示过滤的namespace,
# 不能同时指定。分号分割不同namespace,每个namespace可以是db,也可以是db.collection。
#例如,我想只通过db1,db2和db3中的collection1,那么配置filter.namespace.white=db1;db2;db3.collection1即可
filter.namespace.black =
filter.namespace.white =
# 正常情况下,不建议配置该参数,但对于有些非常特殊的场景,用户可以启用admin,mongoshake等库的同步,
# 以分号分割,例如:admin;mongoshake。
filter.pass.special.db =
# 是否需要开启DDL同步,true表示开启,源是sharding暂时不支持开启。
# 如果目的端是sharding,暂时不支持applyOps命令,包括事务。
filter.ddl_enable = false
# 如果MongoDB启用了gid,但是目的端MongoDB不支持gid导致同步会失败,可以启用gid过滤,将会去掉gid字段。
# 谨慎建议开启,shake本身性能受损很大。
filter.oplog.gids = false
# checkpoint存储信息,用于支持断点续传。
# checkpoint的具体写入的MongoDB地址,如果不配置,对于副本集和分片集群都将写入源库(db=mongoshake)
# 2.4版本以后不需要配置为源端cs的地址。
checkpoint.storage.url =
# checkpoint存储的db的名字
checkpoint.storage.db = mongoshake
# checkpoint存储的表的名字,如果启动多个mongoshake拉取同一个源可以修改这个表名以防止冲突。
checkpoint.storage.collection = ckpt_default
# set if enable ssl
checkpoint.storage.url.mongo_ssl_root_ca_file =
# 本次开始拉取的位置,如果checkpoint已经存在(位于上述存储位置)则该参数无效,
# 如果需要强制该位置开始拉取,需要先删除原来的checkpoint,详见FAQ。
# 若checkpoint不存在,且该值为1970-01-01T00:00:00Z,则会拉取源端现有的所有oplog。
# 若checkpoint不存在,且该值不为1970-01-01T00:00:00Z,则会先检查源端oplog最老的时间是否
# 大于给定的时间,如果是则会直接报错退出。
checkpoint.start_position = 1970-01-01T00:00:00Z
# transform: fromDbName1.fromCollectionName1:toDbName1.toCollectionName1;fromDbName2:toDbName2
# 转换命名空间,比如a.b同步后变成c.d,谨慎建议开启,比较耗性能。
transform.namespace =
# --------------------------- full sync configuration ---------------------------
# 并发最大拉取的表个数,例如,6表示同一时刻shake最多拉取6个表。
full_sync.reader.collection_parallel = 6
# 同一个表内并发写的线程数,例如,8表示对于同一个表,将会有8个写线程进行并发写入。
full_sync.reader.write_document_parallel = 8
# 目的端写入的batch大小,例如,128表示一个线程将会一次聚合128个文档然后再写入。
full_sync.reader.document_batch_size = 128
# 源端拉取batch中最大条数
full_sync.reader.fetch_batch_size = 8192
# max number of fetching thread per table. default is 1
# 单个表最大拉取的线程数,默认是单线程拉取。需要具备splitVector权限。
# 注意:对单个表来说,仅支持索引对应的value是同种类型,如果有不同类型请勿启用该配置项!
full_sync.reader.parallel_thread = 1
# 如果设置了full_sync.reader.parallel_thread,还需要设置该参数,并行拉取所扫描的index,value
# 必须是同种类型。对于副本集,建议设置_id;对于集群版,建议设置shard_key。key只能有1个field。
full_sync.reader.parallel_index = _id
# 同步时如果目的库存在,是否先删除目的库再进行同步,true表示先删除再同步,false表示不删除。
full_sync.collection_exist_drop = true
# 全量期间数据同步完毕后,是否需要创建索引,none表示不创建,foreground表示创建前台索引,
# background表示创建后台索引。
full_sync.create_index = none
# 如果_id存在在目的库,是否将insert语句修改为update语句。
full_sync.executor.insert_on_dup_update = false
# 源端是sharding,是否需要过滤orphan文档
full_sync.executor.filter.orphan_document = false
# 全量阶段写入端是否启用majority write
full_sync.executor.majority_enable = false
# --------------------------- incrmental sync configuration ---------------------------
# 从源MongoDB拉取增量的方式,oplog(默认)表示以oplog进行拉取,change_stream表示以change stream进行对接拉取。oplog方式支持所有大于等于3.0的MongoDB版本,
但对于sharding的同步,需要关掉balancer进行同步,否则会有时序不一致的问题。change_stream支持大于等于4.0的MongoDB版本,对于部分DDL的同步不支持,目前只支持
库表的建/删,重命名,由于MongoDB本身的限制(不支持在ChangeStream输出这些命令),对于建/删索引,convertToCapped,applyOps等都不支持。默认oplog。
#oplog方式,对于sharding的同步,需要关掉balancer进行同步
incr_sync.mongo_fetch_method = oplog
# 更新文档后,只需要更新的字段则设为false,需要全部文档内容则设为true
# 只在mongo_fetch_method = change_stream 模式下生效,且性能有所下降
incr_sync.change_stream.watch_full_document = false
# 双向同步
# 开源请忽略,gid用于双活防止环形复制,目前只用于阿里云云上MongoDB,如果是阿里云云上实例互相同步
# 希望开启gid,请联系阿里云售后,sharding的有多个gid请以分号(;)分隔。
incr_sync.oplog.gids =
# hash的方式,id表示按文档hash,collection表示按表hash,auto表示自动选择hash类型。
# 如果没有索引建议选择id达到非常高的同步性能,反之请选择collection。
incr_sync.shard_key = collection
# 对于按collection哈希,如果某些表不具有唯一索引,则可以设置按_id哈希以提高并发度。
# 用户需要确认该表不会创建唯一索引,一旦检测发现存在唯一索引,则会立刻crash退出。
# 例如,db1.collection1;db2.collection2,不支持仅指定db
incr_sync.shard_by_object_id_whitelist =
# 内部发送(写目的DB)的worker数目,如果机器性能足够,可以提高worker个数。
incr_sync.worker = 8
# 对于目的端是kafka等非direct tunnel,启用多少个序列化线程,必须为"incr_sync.worker"的倍数。
# 默认为"incr_sync.worker"的值。
incr_sync.tunnel.write_thread = 8
# 设置目的端的延迟,比如延迟源端20分钟,目的端可以落后于源端指定的秒数,类似MongoDB本身主从同步slaveDelay参数,单位:秒
# 0表示不启用
incr_sync.target_delay = 0
# 内部队列的配置参数,如果目前性能足够不建议修改,详细信息参考FAQ。
# batch_queue_size:每个worker线程的队列长度,worker线程从此队列取任务
# batching_max_size:一次分发给worker的任务最多包含多少个文档
# buffer_capacity:PendingQueue队列中一个buffer至少包含的文档个数,进行序列化
incr_sync.worker.batch_queue_size = 64
incr_sync.adaptive.batching_max_size = 1024
incr_sync.fetcher.buffer_capacity = 256
incr_sync.reader.fetch_batch_size = 8192
# --- direct tunnel only begin ---
# if tunnel type is direct, all the below variable should be set
# 下列参数仅用于tunnel为direct的情况。
# 如果目的端是sharding,不能开启该参数,如果_id不存在在目的库,是否将update语句修改为insert语句。
incr_sync.executor.upsert = false
# 如果_id存在在目的库,是否将insert语句修改为update语句。
incr_sync.executor.insert_on_dup_update = false
# 如果写入存在冲突,记录冲突的文档。选项:db, none
# db:冲突写到目的DB的mongshake_conflict库中,none:表示不记录冲突文档
incr_sync.conflict_write_to = none
# 增量阶段写入端是否启用majority write
incr_sync.executor.majority_enable = false
# --- direct tunnel only end ---
# 特殊字段,标识源端类型,默认为空。阿里云MongoDB serverless集群请配置aliyun_serverless
special.source.db.flag =
# 特殊字段,当源库和目标库都是分片集群时,且源表和目标表片键不一致,是否跳过检验
#例如,db1.collection1;db2.collection2
skip.nsshardkey.verify =
注意事项
如果同一个库或集合迁移后,打算重新再次迁移,需要手动删除源库mongoshake中ckpt_default集合,否则在此迁移,全量数据迁移不全,增量数据没有问题。
加入数据库技术交流群:
进群福利:
1、知识共享与学习机会
2、问题求助与解决支持
3、技术沉淀和分享平台
4、及时了解行业动态
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)