数据同步工具DataX从Mysql同步数据到HDFS实战

2023-05-16

1. 查看数据同步模板

我自己在下面的模板文件中添加了一些说明注释

[root@bigdata001 datax]# bin/datax.py -r mysqlreader -w hdfswriter

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.


Please refer to the mysqlreader document:
     https://github.com/alibaba/DataX/blob/master/mysqlreader/doc/mysqlreader.md 

Please refer to the hdfswriter document:
     https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md 
 
Please save the following configuration as a json file and  use
     python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
to run the job.

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader", 
                    "parameter": {
                        "column": [],                                             # 可以填写["*"]表示同步所有列。还支持["1", "2.3", "true", "'bazhen.csy'", "null", "upper('a')"], 分别表示整形、浮点数、布尔值、字符串、空指针，表达式
                        "connection": [
                            {
                                "jdbcUrl": [],                                     # 支持多个连接地址。会依次进行连接测试，选择一个可用的进行查询数据
                                "table": []                                         # 支持同步多个表。多个表必须schema相同
                            }
                        ], 
                        "password": "", 
                        "username": "", 
                        "where": "",
                        "splitPk": "",                                            # 一般是主键，只支持整形字段。先计算min(splitPk)、max(splitPk)，再进行范围分区划分，将job划分成多个task。不指定则只有一个task
                        "querySql": ["select id, name from person where id < 10;"]    # 这个是我自己添加的。有了querySql会自动忽略column、table、where
                    }
                }, 
                "writer": {
                    "name": "hdfswriter", 
                    "parameter": {
                        "column": [],                                            # 必须和reader的列数量对应
                        "compress": "",                                       # 默认不填写，表示不压缩。text文件支持gzip、bzip2; orc文件支持NONE、SNAPPY
                        "defaultFS": "", 
                        "fieldDelimiter": "", 
                        "fileName": "", 
                        "fileType": "",                                          # 目前仅支持text和orc。其中orc需指定compress为SNAPPY
                        "path": "",                                                # 该路径必须存在
                        "writeMode": ""                                       # append：表示新建一个文件插入数据；nonConflict：有fileName为前缀的文件直接报错
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}
[root@bigdata001 datax]#

2. 高可用HA的HDFS配置

配置参考如下：

                        "defaultFS": "hdfs://192.168.8.111:9000", 
						"hadoopConfig": {
						    "dfs.nameservices": "nnha",
						    "dfs.ha.namenodes.nnha": "nn1,nn2,nn3",
						    "dfs.namenode.rpc-address.nnha.nn1": "192.168.8.111:9870",
						    "dfs.namenode.rpc-address.nnha.nn2": "192.168.8.112:9870",
						    "dfs.namenode.rpc-address.nnha.nn3": "192.168.8.113:9870",
						    "dfs.client.failover.proxy.provider.nnha": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
						},
                        "fieldDelimiter": "|"

3. MysqlReader针对Mysql类型转换说明

DataX内部类型	Mysql数据类型
Long	int, tinyint, smallint, mediumint, int, bigint
Double	float, double, decimal
String	varchar, char, tinytext, text, mediumtext, longtext, year
Date	date, datetime, timestamp, time
Boolean	bit, bool
Bytes	tinyblob, mediumblob, blob, longblob, varbinary

4. HdfsWriter支持大部分Hive类型

DataX内部类型	HIVE数据类型
Long	TINYINT,SMALLINT,INT,BIGINT
Double	FLOAT,DOUBLE
String	STRING,VARCHAR,CHAR
Boolean	BOOLEAN
Date	DATE,TIMESTAMP

5. Mysql准备数据如下

mysql> create table person(
    -> id bigint,
    -> name varchar(64)
    -> );
Query OK, 0 rows affected (0.06 sec)

mysql> 
mysql> insert into person(id, name) values(1, 'yi'), (2, 'er');
Query OK, 2 rows affected (0.02 sec)
Records: 2  Duplicates: 0  Warnings: 0

mysql> 
mysql> select * from person;
+------+------+
| id   | name |
+------+------+
|    1 | yi   |
|    2 | er   |
+------+------+
2 rows in set (0.00 sec)

mysql>

6. 新建job/mysql2hdfs.json

内容如下：

[root@bigdata001 datax]# cat job/mysql2hdfs.json 
{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader", 
                    "parameter": {
                        "column": ["id", "name"], 
                        "connection": [
                            {
                                "jdbcUrl": ["jdbc:mysql://192.168.8.115:3306/test"], 
                                "table": ["person"]
                            }
                        ], 
                        "password": "Root_123", 
                        "username": "root", 
                        "where": ""
                    }
                }, 
                "writer": {
                    "name": "hdfswriter", 
                    "parameter": {
                        "column": [{"name": "id", "type": "int"}, {"name": "name", "type": "string"}], 
                        "compress": "", 
                        "defaultFS": "hdfs://192.168.8.111:9000", 
                        "fieldDelimiter": "|", 
                        "fileName": "person.txt", 
                        "fileType": "text", 
                        "path": "/", 
                        "writeMode": "append"
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": "1"
            }
        }
    }
}
[root@bigdata001 datax]#

7. 执行job

会先写入临时文件，如果成功，则将临时文件rename，再删除临时文件；如果失败，直接删除临时文件

[root@bigdata001 datax]# bin/datax.py job/mysql2hdfs.json 

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
......省略部分......
2022-06-14 10:16:33.551 [0-0-0-writer] INFO  HdfsWriter$Task - begin do write...
2022-06-14 10:16:33.551 [0-0-0-writer] INFO  HdfsWriter$Task - write to file : [hdfs://192.168.8.111:9000/__af1d80fc_c721_4973_a54f_18d97902156f/person.txt__8191b9fa_361d_435d_ba34_7b361fffb07d]
......省略部分......
2022-06-14 10:16:43.512 [job-0] INFO  HdfsWriter$Job - start rename file [hdfs://192.168.8.111:9000/__af1d80fc_c721_4973_a54f_18d97902156f/person.txt__8191b9fa_361d_435d_ba34_7b361fffb07d] to file [hdfs://192.168.8.111:9000/person.txt__8191b9fa_361d_435d_ba34_7b361fffb07d].
......省略部分......
2022-06-14 10:16:43.915 [job-0] INFO  HdfsWriter$Job - start delete tmp dir [hdfs://192.168.8.111:9000/__af1d80fc_c721_4973_a54f_18d97902156f] .
......省略部分......
2022-06-14 10:16:44.034 [job-0] INFO  JobContainer - 
任务启动时刻                    : 2022-06-14 10:16:31
任务结束时刻                    : 2022-06-14 10:16:44
任务总计耗时                    :                 12s
任务平均流量                    :                0B/s
记录写入速度                    :              0rec/s
读出记录总数                    :                   2
读写失败总数                    :                   0

[root@bigdata001 datax]#

8. 查看hdfs的文件

会在该文件名后添加随机的后缀，作为每个线程写入的实际文件名

[root@bigdata001 ~]# hadoop fs -cat /person.txt__8191b9fa_361d_435d_ba34_7b361fffb07d
1|yi
2|er
[root@bigdata001 ~]#

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据同步工具DataX从Mysql同步数据到HDFS实战的相关文章

问题：Ubuntu编译过程中找不到opencv/cv.h文件

在Ubuntu18 04环境下编译ROS包出现找不到 include lt opencv cv h gt 文件的问题 fatal error opencv cv h No such file or directory include lt
问题：VMware虚拟机突然打不开

最近虚拟机总是出现问题 xff0c 比如未能将管道连接到虚拟机所有的管道范例都在使用中还有一些其他情况解决方法 xff1a 1 先将VM虚拟机关掉 2 打开任务管理器 xff0c 找到服务 xff0c 然后打开服务 3 将服务中所有V
LGSVL+ROS联合仿真使用过程记录

LGSVL 43 ROS联合仿真使用过程记录 1 LGSVL系统要求2 我的环境3 在PC上下载LGSVL4 运行LGSVL5 配置ROS环境6 配置LGSVL仿真环境7 最最最最最重要的一步 xff01 xff01 xff01 8 联合仿
在Ubuntu20.04下安装Autoware.universe和Carla并进行联合仿真

在Ubuntu20 04下安装Autoware universe和Carla并进行联合仿真一安装Carla0 9 13二安装 UnrealEngine 4 26三安装Autoware universe四设置 OpenPlanner
在编译UnrealEngine4.26时报错：ERROR: Platform Linux is not a valid platform to build. Check that the SDK is

源码安装UnrealEngine4 26 xff0c 在使用make命令时报错 xff1a ERROR Platform Linux is not a valid platform to build Check that the SDK i
在Carla+Autoware.universe仿真中加入NPC车辆

我是通过sudo apt get install carla simulator 61 0 9 13命令安装的Carla Carla版本是0 9 13 ROS2版本是Galactic 在使用 run exploration mode ros
全局变量的使用，头文件不要对变量进行初始化，解决重复定义问题
Method_Confusion_Attack_on_Bluetooth_Pairing

Method Confusion Attack on Bluetooth Pairing IEEE Conference Publication IEEE Xplore 引言本文讲述一种蓝牙配对机制的设计缺陷此漏洞允许两个设备使用不同的
Biometric_Identification_System_based_on_Object_Interactions_in_Internet_of_Things_Environments

基于物联网环境下对象交互的生物特征识别系统引言概论 xff1a 本文讲述一种将智能环境中与物体发生的自然交互性行为用作生物识别技术的系统原因 xff1a 智能设备数量越来越多 xff0c 但是受限于设备接口有限 xff0c 这些设
多线程编程 ------ 互斥量

1 创建互斥量 pthreads 使用 pthread mutex t 类型的变量来表示互斥量 xff0c 同时在使用互斥量进行同步前需要先对它进行初始化 xff0c 可以用静态或动态的方式对互斥量进行初始化 xff08 1 xff09 静
C++ 线程及线程池详解

目录一前言1 参考链接2 编译参数二 std thread1 构造函数2 公共成员函数2 1 get id 2 2 join 2 3 detach 2 4 joinable 2 5 operator 61 2 6 native han
在MAC第一次使用python，安装PyCharm以及设置环境

在MAC的系统上一般都有Python的环境不过一般都是Python2 的而现在大多都会用Python3 如果你不知道Python是什么版本的可以在 Launchpad 上面的搜索搜索终端输入Python 如下开头便是Python2
(14)写一个函数，将两个字符串连接

写一个函数 xff0c 将两个字符串连接程序分析 xff1a 用户在控制台输出第一个字符串后按下回车键继续输出下一个字符串需要加上getchar 读取换行符 xff0c 若不进行处理程序会将换行符也连接到新的字符串中 span clas
CMAKE error

今天的CMAKE中出现下面的错误 xff1a CMake Error at CMakeLists txt 19 TARGET LINK LIBRARIES Cannot specify link libraries for target 3
开源SIP服务器OpenSIPS应用介绍

1 引入随着通信IP化的发展 xff0c IP传输的高带宽低成本等优势使得越来越多的企业电信运营商加快建设基于IP的各种通信应用在通信协议IP化发展中 xff0c SIP协议毫无争议地成为各大电信运营商构建其未来网络的基础协议 xf
Ubuntu 18.04 apache2 搭建http文件服务器

在我们日常的开发过程中 xff0c 需要创建一个http 文件服务器用于调试比如直接使用 wget 获取文件代替插拔SD卡 xff08 用sd卡拷贝 xff09 1 安装 apache2 apt get update apt get
CentOs安装nginx服务器，能够在远端通过http和https访问nginx服务器的测试首页内容。

使用yum install nginx 命令安装nginx 然后通过dnf list nginx命令查询了安装结果第一次通过sytemctl status nginx 命令进行查看服务启动状态时 xff0c 结果显示dead xff0c
SPL06-001 气压计计算与读取

手册地址 https download csdn net download zhangxuechao 10548473 寄存器计算方法举例气压测量速率 sample sec Background 模式使用 define PM RATE
PTA题库查找字串

查找子串本题要求实现一个字符串查找的简单函数函数接口定义 xff1a span class token keyword char span span class token operator span span class token
怎样防止头文件被重复包含?（两种方式）以及它的影响

xfeff xfeff 一头文件被重复包含 include文件的一个不利之处在于一个头文件可能会被多次包含 xff0c 为了说明这种错误 xff0c 考虑下面的代码 include 34 x h 34 include 34 x h 34

随机推荐

linux 条件变量

在多线程编程中仅使用互斥锁来完成互斥是不够用的 xff0c 如以下情形 xff1a 假设有两个线程 t1 和 t2 xff0c 需要这个两个线程循环对一个共享变量 sum 进行自增操作 xff0c 那么 t1 和 t2 只需要使用互斥量即可
Invoke与begininvoke

在Invoke或者BeginInvoke的使用中无一例外地使用了委托Delegate xff0c 至于委托的本质请参考我的另一随笔 xff1a 对 net事件的看法一为什么Control类提供了Invoke和BeginInvoke机制
接口成员显示实现

xff08 interface xff09 用来定义一种程序的协定实现接口的类或者结构要与接口的定义严格一致在前面的文章中 xff0c 我们已经对C 接口的概念 xff0c 如何定义接口以及如何对接口进行访问等问题进行了详细的讨论在这
Oracle基础知识整理总结

1 Oracle跟SQL Server 2005的区别 xff1f 宏观上 xff1a 1 最大的区别在于平台 xff0c oracle可以运行在不同的平台上 xff0c sql server只能运行在windows平台上 xff0c 由于
Javascript调用后台方法

1 javaScript函数中执行C 代码中的函数 xff1a 方法一 xff1a 1 首先建立一个按钮 xff0c 在后台将调用或处理的内容写入button click中 2 在前台写一个js函数 xff0c 内容为document ge
Delphi设置某用户对文件（夹）的权限

以下在代码在D7 43 2003和D7 43 XP中调试通过 unit NTSecurityU interface Uses Windows AclApi AccCtrl Const SECURITY NULL SID AUTHORITY
关于VMWare压缩虚拟机的虚拟磁盘的问题

随着我们使用虚拟系统的时间越长 xff0c Vmware创建的虚拟磁盘占用空间就越大 xff0c 即使将虚拟系统中的文件删除 xff0c 虚拟磁盘文件占用宿主系统硬盘空间也不会减少 xff0c 这个问题困扰了很多用户 a S 34 N 43
GB2312简体中文编码表

const GB2312 中文编码 CHpb 61 B0 首页码 CHpe 61 F7 尾页码 CHab 61 A1 首地址 CHae 61 FE 尾地址 GB B 61 B0A1 GB E 61 F7FE ChCount 61 chpe
自定义通信协议

现在大部分的仪器设备都要求能过通过上位机软件来操作 xff0c 这样方便调试 xff0c 利于操作其中就涉及到通信的过程在实际制作的几个设备中 xff0c 笔者总结出了通信程序的通用写法 xff0c 包括上位机端和下位机端等 1 xff
vc的编译过程

对VC 43 43 工程编译过程的梳理 VC 43 43 的项目和解决方案文件解读 xff0c 无非就是利用这些信息进行一个软件的编译 xff0c 这些文件里面是存放的项目的配置和工程的组织 xff0c 类似于makefile文件但是只有
用WSE在Web服务中验证用户身份

一 Web服务安全与WS Security 毫无疑问 xff0c SOAP和XML Web服务在交互操作和标准上已经完全改变了电子商务领域的格局然而直到最近 xff0c 在Web服务技术领域仍然存在着一些缺陷 xff0c 那就是处理消息级
安装CUDA wget下载速度慢解决办法（天下无敌）

因为墙的原因 xff0c 再加上英伟达工作人员脑筋不会急转弯 xff0c 以及wget是个弟中弟 xff0c 下载cuda时可能会很慢断线 xff0c 翻墙又不方便但是没关系 xff0c 谈笑间 xff0c 让我们用一分钟成交它以ub
px4下载指定版本的固件、git用法

https hub fastgit org PX4 PX4 Autopilot git describe tag 查看当前版本号 git tag l 查看所有版本 xff0c 也就是打个tag git checkout v1 9 1 跳转到
YOLOX网络结构

本文为博主DaneAI原创文章 xff0c 遵循 CC 4 0 BY SA 版权协议 xff0c 转载请附上原文出处链接和本声明原文链接 xff1a https blog csdn net happyday d article detai
阿木实验室P450无人机硬件接线图备忘录

其中数传是定制的 xff0c 相当于是路由器 43 数传二合一 xff0c 既负责地面站计算机与pixhawk的通讯 xff0c 又负责发射WiFi信号组建局域网 xff0c 使板载英伟达NX上位机和手机平板笔记本电脑等远程终端连接在
yolov3损失函数公式及代码位置，绝对良心（更新）

版本 xff1a darknet yolov3 环境 xff1a ubuntu16 04 本人小白 xff0c 毕设正在做基于yolov3的目标检测系统研究 xff0c 在网上找了一万遍 xff0c 基本没有靠谱的损失函数 xff0c 全是
使用http协议Header中的Authorization传递token

1 span class token annotation punctuation 64 GetMapping span span class token punctuation span span class token string 3
Shell命令之终端打开网页

一句话用Safari打开百度 span class hljs built in open span span class hljs operator a span span class hljs string 34 Applications
数据结构期末复习五：内部排序

排序的基本概念和分类排序 xff1a 将杂乱无章的数据按关键字递增 xff08 或递减 xff09 有序排列假设Ki 61 Kj xff0c 排序前Ri领先于Rj 稳定排序 xff1a 排序后的序列Ri仍领先于Rj 不稳定排序 xff1
数据同步工具DataX从Mysql同步数据到HDFS实战

目录 1 查看数据同步模板2 高可用HA的HDFS配置3 MysqlReader针对Mysql类型转换说明4 HdfsWriter支持大部分Hive类型5 Mysql准备数据如下6 新建job mysql2hdfs json7 执行job8

数据同步工具DataX从Mysql同步数据到HDFS实战

目录

1. 查看数据同步模板

2. 高可用HA的HDFS配置

3. MysqlReader针对Mysql类型转换说明

4. HdfsWriter支持大部分Hive类型

5. Mysql准备数据如下

6. 新建job/mysql2hdfs.json

7. 执行job

8. 查看hdfs的文件

数据同步工具DataX从Mysql同步数据到HDFS实战 的相关文章

随机推荐

热门标签

数据同步工具DataX从Mysql同步数据到HDFS实战的相关文章