项目中有两个数据库:本地数据库和远程服务器数据库。数据要在本地经过数据洗涤后才传上服务器数据库。之前用的Navicat工具,但是速度慢,且无法设置定时同步。后来改用Datax,它的效率真的非常高。
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
官方地址:下载地址。
我是下载完整包,比较方便不用maven编译![在这里插入图片描述](https://img-blog.csdnimg.cn/20181225153724990.png)
使用步骤:
(1)环境准备:
JDK1.8、python2.6.x(装python3.0会报错)、maven3.x.x(下载源码包时,需要用maven编译)
(2)使用:
将下载好的datax.tar.gz解压,找到job.json文件,路径:E:\datax\job\job.json,用编辑器打开:
{
"job": {
"setting": {
"speed": {
"channel":1
},
},
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"connection": [
{
//配置sql语句查询要同步的数据querySql,配置querySql后不需要配置column和table,因为当用户配置querySql时,MysqlReader直接忽略table、column、where条件的配置,querySql优先级大于table、column、where选项。
"querySql": [
"select * FROM 表名 WHERE date1>='2018-12-24';"
],
"jdbcUrl": ["jdbc:mysql://[读数据数据库的ip地址]:3306/数据库名?useUnicode=true&characterEncoding=utf8&yearIsDateType=false&zeroDateTimeBehavior=convertToNull&tinyInt1isBit=false&rewriteBatchedStatements=true"],
}
],
"password": "登录数据库的密码",
"username": "登录数据库的用户名",
}
},
"writer": {
"name": "mysqlwriter",
"parameter": {
"password": "登录数据库的密码",
"username": "登录数据库的用户名",
"column":["*"],
"connection": [
{
"jdbcUrl": "jdbc:mysql://[写数据的IP地址]/数据库名",
"table": ["数据表名"]
}
],
}
}
}
]
}
}
打开cmd控制台,执行datax的datax.py,命令:python E:\datax\bin\python E:\datax\job\job.json
,运行结果:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20181225161322424.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM0MTkwNTU3,size_16,color_FFFFFF,t_70)