异构跨库数据同步还在用Datax?来看看这几个开源的同步方案

  发布时间:2025-11-05 06:30:31   作者:玩站小弟   我要评论
在遇到跨库或者异库数据同步时,我们一般都会借助ETL工具来实现数据同步功能。比如目前大家较为熟知的Kettle和Datax。但是,这两个需要定时去查询数据库的数据,会存在一定的延迟,而且,默认采用全量 。

在遇到跨库或者异库数据同步时,异构我们一般都会借助ETL工具来实现数据同步功能。跨库x看看个开源比如目前大家较为熟知的数据Kettle和Datax。但是同步,这两个需要定时去查询数据库的还用数据,会存在一定的步方延迟,而且,异构默认采用全量同步的跨库x看看个开源方式,想要增量,数据需要自己做特殊的同步处理。那么,还用有没有开源的步方工具,既能满足全量和增量,异构又能达到相对比较实时的跨库x看看个开源呢?接下来,我们继续往下看。数据

Kettle

在ETL行列中,kettle算是人气比较旺的一款工具,功能多且强大,开源,可视化。使用方便、简洁,但是,企商汇体量越来越大,性能一般。

可以自己下载源码编译,要求Maven 3+、Java JDK 11。

​​https://github.com/pentaho/pentaho-kettle.git​​

DataX

DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

类型

数据源

Reader(读)

Writer(写)

文档

RDBMS 关系型数据库

MySQL

读 、写

Oracle

读 、写

OceanBase

读 、写

SQLServer

读 、写

PostgreSQL

读 、写

DRDS

读 、写

Kingbase

读 、写

通用RDBMS(支持所有关系型数据库)

读 、写

阿里云数仓数据存储

ODPS

读 、香港云服务器

ADB

ADS

OSS

读 、写

OCS

Hologres

AnalyticDB For PostgreSQL

阿里云中间件

datahub

读 、写

SLS

读 、写

阿里云图数据库

GDB

读 、写

NoSQL数据存储

OTS

读 、写

Hbase0.94

读 、写

Hbase1.1

读 、写

Phoenix4.x

读 、写

Phoenix5.x

读 、写

MongoDB

读 、写

Cassandra

读 、写

数仓数据存储

StarRocks

读 、写

ApacheDoris

ClickHouse

Databend

Hive

读 、写

kudu

无结构化数据存储

TxtFile

读 、写

FTP

读 、写

HDFS

读 、写

Elasticsearch

时间序列数据库

OpenTSDB

TSDB

读 、写

TDengine

读 、写

​​https://github.com/alibaba/DataX.git​​

DataX-Web

前面提到DataX,那么就不得不提一下DataX-Web,DataX没有可视化界面,不过目前,已经有热心开基于DataX开发了对应的Web界面。DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,支持RDBMS、WordPress模板Hive、HBase、ClickHouse、MongoDB等数据源,RDBMS数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发xxl-job可根据时间、自增主键增量同步数据。

任务”执行器”支持集群部署,支持执行器多节点路由策略选择,支持超时控制、失败重试、失败告警、任务依赖,执行器CPU.内存.负载的监控等等。后续还将提供更多的数据源支持、数据转换UDF、表结构同步、数据同步血缘等更为复杂的业务场景。

​​https://github.com/WeiYe-Jing/datax-web.git​​

Airbyte

一款开源的可视化ETL功能,支持很多数据源,并且支持全量及增量同步。

​​https://github.com/airbytehq/airbyte.git​​

benthos

Benthos 是一个开源的、高性能和弹性的数据流处理器,支持多种方式的数据接入、加工、转换。

​​https://github.com/benthosdev/benthos.git​​

canal

阿里巴巴开源的MySQL binlog 增量订阅&消费组件,基于日志只能做增量同步,很多工作需要自己处理。

​​https://github.com/alibaba/canal.git​​

Maxwell

也是监听MySQL binlog,并将数据更解析为JSON写入到Kafka等其他流媒体平台。

​​https://github.com/zendesk/maxwell.git​​

debezium

Debezium是一个捕获数据更改(CDC)平台,并且利用Kafka和Kafka Connect实现了自己的持久性、可靠性和容错性。每一个部署在Kafka Connect分布式的、可扩展的、容错性的服务中的connector监控一个上游数据库服务器,捕获所有的数据库更改,然后记录到一个或者多个Kafka topic(通常一个数据库表对应一个kafka topic)。Kafka确保所有这些数据更改事件都能够多副本并且总体上有序(Kafka只能保证一个topic的单个分区内有序),这样,更多的客户端可以独立消费同样的数据更改事件而对上游数据库系统造成的影响降到很小(如果N个应用都直接去监控数据库更改,对数据库的压力为N,而用debezium汇报数据库更改事件到kafka,所有的应用都去消费kafka中的消息,可以把对数据库的压力降到1)。另外,客户端可以随时停止消费,然后重启,从上次停止消费的地方接着消费。每个客户端可以自行决定他们是否需要exactly-once或者at-least-once消息交付语义保证,并且所有的数据库或者表的更改事件是按照上游数据库发生的顺序被交付的。

​​https://github.com/debezium/debezium.git​​

Flink CDC

Apache Flink®的CDC连接器集成了Debezium作为捕获数据更改的引擎。虽然功能强大,但是比较重。

​​https://github.com/ververica/flink-cdc-connectors.git​​

目前,异构数据ETL同步,一般基于两种方式:查询和日志,基于查询做全量同步,基于日志做增量同步,日志方式延迟会比较小,查询来做增量,延迟会比较大,查询频率越高,对数据库性能也会有影响。随着各种热门技术的兴起,在Github中也有越来越多的解决方案,我们可以根据自己的实际情况选择合适自己的工具。

  • Tag:

相关文章

  • LOL电脑端新手教程(打造你的英雄传说,助你赢得荣耀)

    摘要:作为全球最受欢迎的电子竞技游戏之一,《英雄联盟》LeagueofLegends,简称LOL)吸引了无数玩家投入到这个精彩的游戏世界中。对于新手来说,LOL电脑端可能会让人感到有些...
    2025-11-05
  • 那些 Go 语言实现的语言现在发展怎么样了?

    大家好,我是站长 polarisxu。Go 是一门通用编程语言,Go1.5 实现了自举,也就是说,Go 语言是用它自身实现的。经过十来年的发展,开源界使用 Go 语言实现的编程语言不少,那它们发展的怎
    2025-11-05
  • 下次别用递归了,试试闭包吧!

    递归函数使用起来非常酷,简洁优雅,可以用来炫耀编程技巧。但是,在大多数情况下,递归函数具有非常高的时间和空间复杂性,我们应该避免使用它。更好的解决方案之一是在可能的情况下使用动态规划,对于能够分解为子
    2025-11-05
  • 从微信小程序到鸿蒙JS开发-menu&toast&dialog

    想了解更多内容,请访问:和华为官方合作共建的鸿蒙技术社区https://harmonyos.51cto.com/#zz1、menu弹出菜单这是微信小程序没有的一个组件,提供了一个可唤起的轻量级弹出菜单
    2025-11-05
  • 打造网红电脑钟表的制作教程(用创意与技术,打造属于自己的网红电脑钟表)

    摘要:在如今这个数字化时代,电脑和钟表都成为了人们生活中不可或缺的物品。为何不将二者结合起来,打造一个独一无二的网红电脑钟表呢?本文将为大家详细介绍如何制作属于自己的网红电脑钟表,通过创...
    2025-11-05
  • 面试官:啥?SynchronousQueue是钟?点?房?

    今天这篇文章,我们继续讲架构师大刘的故事。大刘有段时间经常会给一些程序员讲课。这一方面是由于团队培训的需要,一方面也是大刘自身想搞搞凡尔赛,嘚瑟一下自身的实力。大刘讲课是允许公司任何一个人进去听的。提
    2025-11-05

最新评论