-
阿里巴巴的DataX ETL工具的使用心得,数据库主从热备份神器
- 网站名称:阿里巴巴的DataX ETL工具的使用心得,数据库主从热备份神器
- 网站分类:技术文章
- 收录时间:2025-10-13 18:13
- 网站地址:
“阿里巴巴的DataX ETL工具的使用心得,数据库主从热备份神器” 网站介绍
简介
这是阿里出的一个ETL工具,其实就是把不同数据库的数据,高效的互相拷贝。做了很多底层优化,平均能达到1秒/1W条。如果有牛逼的优化,能达到1秒/9W条。一般用在半夜的数据获取,或者主从热备份。
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
官方手册:
https://github.com/alibaba/DataX
支持的数据库类型
环境部署
1安装Python 2.6.x
工具基于py2.6,请不要装新版本,容易出奇怪问题
百度下载python-2.6.6.msi,安装一直下一步即可。
环境变量:
Path增加C:\Python26
cmd测试安装效果python -v
2安装java 1.8
百度下载jdk-8u181-windows-x64.exe,安装一直下一步即可。
环境变量:
1)新增变量名:JAVA_HOME
变量值:(变量值填写你的jdk的安装目录,例如本人是C:/Program Files/Java/jdk1.8.0_31)
2)新增变量名:CLASSPATH
变量值:.%JAVA_HOME%/lib;%JAVA_HOME%/lib/tools.jar(注意最前面有一点)
3)编辑Path变量,在原来的变量值最后面添加%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin;
cmd测试安装效果java
使用教程
1总体说明
- 通过Reader方法读取数据,然后Write方法写回去。底层用的是jdbc,所以兼容性是非常好的。
- 通过job/job.json配置读写方法,然后通过bat运行
chpcp是为了设置编码模式,不然中文会显示乱码的chcp 65001 python datax.py ../job/job.jsonCOPY
2心得小技巧
- 还可以通过PreSql前置执行和PostSql后置执行,做一些预处理
- PreSql和PostSql都可以通过;号注入多条
- 读取的表结构,跟写入的表结构必须完全一样,包括名字和列顺序,避免不必要的麻烦
- 如果是自己写sql,则不需要指定主键、列名之类的
- 一个json只能同步一个表
- 多个表同步,可以写多个json,然后bat文件里多写几行,依次执行
3参考代码
代码写法,主要在github上查看官方手册,例如mysql的Writer
跳转链接:
https://github.com/alibaba/DataX/blob/master/mysqlwriter/doc/mysqlwriter.md
真实案例:
{
"job": {
"setting": {
"speed": {
"channel": 1
}
},
"content": [
{
"reader": {
"name": "oraclereader",
"parameter": {
"username": "jmquery",
"password": "xxxx",
"connection": [
{
"querySql": [
"select KHZJBS,KHBH,ZJMC,ZJHM,CZSJ,GDDWBM from JMSJHL.NPMIS_KH_KHZJ where 1=1"
],
"jdbcUrl": [
"jdbc:oracle:thin:@10.151.19.128:1512:sjhl"
]
}
]
}
},
"writer": {
"name": "mysqlwriter",
"parameter": {
"writeMode": "insert",
"username": "tudang",
"password": "xxxx",
"column": [
"KHZJBS","KHBH","ZJMC","ZJHM","CZSJ","GDDWBM"
],
"preSql": [
"insert into dataxlog (tablename,starttime,rowqty,action) values ('01_KH_KHZJ',sysdate(),(select count(1) from KH_KHZJ),'开始')"
],
"postSql": [
"insert into dataxlog (tablename,starttime,rowqty,action) values ('01_KH_KHZJ',sysdate(),(select count(1) from KH_KHZJ),'结束')"
],
"connection": [
{
"jdbcUrl": "jdbc:mysql://10.151.19.20:33060/tudang?useUnicode=true&characterEncoding=utf8&useSSL=false",
"table": [
"KH_KHZJ"
]
}
]
}
}
}
]
}
}COPY
4性能调优
通常低于50G的数据,不需要开多线程。100G左右才开2线程。实测数据量少的时候线程没什么区别,还增加不稳定性。
所以一般不需要多线程,也不要改每次写入的量吗,默认就很好了。我们有的是时间,最重要是稳定。开太高负载,容易内存溢出崩掉。
性能调优参考:
https://www.cnblogs.com/hit-zb/p/10940849.html
5创建计划自动执行
Windows系统的方法:
更多相关网站
- 在CentOS上安装Java_centos怎么安装jdk
- 使用 Docker 部署 Spring Cloud 项目详细步骤
- 学习笔记之——nexus(一)_nexus yum
- Eclipse 安装教程(附安装包下载)_eclipse安装教程最新版
- ansible常用命令_ansible命令参数
- Cytoscape 3.7.1 安装教程(附安装包下载)
- Ubuntu下常用软件的安装三——java开发环境的搭建
- wds mdt 构建用于批量分发的 Windows 10 映像
- Java NIO:从 Buffer、Channel、Selector 到 Zero-copy、I/O 多路复用
- Linux中安装jdk并配置环境变量_linux环境安装jdk1.8
- 最全的linux下安装JavaJDK的教程(图文详解)不会安装你来打我?
- 从零开始学Java系列之最详细的Java环境变量配置教程
- 学习笔记-Linux JDK - 安装&配置
- Qt5.12.2开发Android环境搭建_qt on android开发环境搭建
- Java开发环境搭建与配置,最全手册看这一篇就够了
- 最近发表
- 标签列表
-
- mydisktest_v298 (35)
- sql 日期比较 (33)
- document.appendchild (35)
- 头像打包下载 (35)
- 梦幻诛仙表情包 (36)
- java面试宝典2019pdf (26)
- disk++ (30)
- 加密与解密第四版pdf (29)
- iteye (26)
- centos7.4下载 (32)
- intouch2014r2sp1永久授权 (33)
- jdk1.8.0_191下载 (27)
- axure9注册码 (30)
- 兔兔工程量计算软件下载 (27)
- ccproxy破解版 (31)
- aida64模板 (28)
- engine=innodb (33)
- shiro jwt (28)
- segoe ui是什么字体 (27)
- head first java电子版 (32)
- clickhouse中文文档 (28)
- jdk-8u181-linux-x64.tar.gz (32)
- 计算机网络自顶向下pdf (34)
- -dfile.encoding=utf-8 (33)
- jdk1.9下载 (32)