DataX下载安装使用

2023-11-15

文章目录

01.Clickhouse到HBase(Phoenix)数据导入 DataX

01.Clickhouse到HBase(Phoenix)数据导入 DataX

介绍

DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

下载

# 官方版本
wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

# 编译好ClickHouse和Hbase2的版本
链接：https://pan.baidu.com/s/1IYU93oGOnvcx34HJaPDudQ 
提取码：bool

解压

tar -zxvf datax.tar.gz

解压后目录结构如下

[root@dev-bigdata-24-146 datax]# ls
bin  conf  job  lib  log  log_perf  plugin  script  tmp

执行同步的组件

reader下是支持读的组件

writer下是支持写的组件

[root@dev-bigdata-24-146 datax]# tree -L 2 plugin/
plugin/
├── reader
│   ├── cassandrareader
│   ├── clickhousereader
│   ├── dbffilereader
│   ├── drdsreader
│   ├── elasticsearchreader
│   ├── ftpreader
│   ├── gaussdbreader
│   ├── gbasereader
│   ├── gdbreader
│   ├── hbase094xreader
│   ├── hbase11xkerberosreader
│   ├── hbase11xreader
│   ├── hbase11xsqlreader
│   ├── hbase20xsqlreader
│   ├── hdfsreader
│   ├── httpreader
│   ├── influxdbreader
│   ├── jsonfilereader
│   ├── kingbaseesreader
│   ├── kudureader
│   ├── mongodbreader
│   ├── mysql8reader
│   ├── mysqlreader
│   ├── odpsreader
│   ├── opentsdbreader
│   ├── oraclereader
│   ├── oscarreader
│   ├── ossreader
│   ├── otsreader
│   ├── otsstreamreader
│   ├── postgresqlreader
│   ├── rdbmsreader
│   ├── redisreader
│   ├── sqlserverreader
│   ├── streamreader
│   ├── tdenginereader
│   └── txtfilereader
└── writer
    ├── adbpgwriter
    ├── adswriter
    ├── cassandrawriter
    ├── clickhousewriter
    ├── dbffilewriter
    ├── dorisdbwriter
    ├── doriswriter
    ├── drdswriter
    ├── elasticsearchwriter
    ├── ftpwriter
    ├── gaussdbwriter
    ├── gbasewriter
    ├── gdbwriter
    ├── greenplumwriter
    ├── hbase094xwriter
    ├── hbase11xkerberoswriter
    ├── hbase11xsqlwriter
    ├── hbase11xwriter
    ├── hbase20xsqlwriter
    ├── hdfswriter
    ├── influxdbwriter
    ├── kingbaseeswriter
    ├── kuduwriter
    ├── mongodbwriter
    ├── mysql8writer
    ├── mysqlwriter
    ├── ocswriter
    ├── odpswriter
    ├── oraclewriter
    ├── oscarwriter
    ├── osswriter
    ├── otswriter
    ├── postgresqlwriter
    ├── rdbmswriter
    ├── rediswriter
    ├── sqlserverwriter
    ├── streamwriter
    ├── tdenginewriter
    ├── tsdbwriter
    └── txtfilewriter

配置数据同步

本文介绍使用的是CDH6.3.2所带的之间HBase 版本2.1.0版本，需要安装Phoenix

Phoenix安装方法参考：https://datamining.blog.csdn.net/article/details/105572156

查看官方读写配置样例

命令：python bin/datax.py -r clickhousereader -w hbase20xsqlwriter

[root@jast datax]# python bin/datax.py -r clickhousereader -w hbase20xsqlwriter

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.


Please refer to the clickhousereader document:
     https://github.com/alibaba/DataX/blob/master/clickhousereader/doc/clickhousereader.md 

Please refer to the hbase20xsqlwriter document:
     https://github.com/alibaba/DataX/blob/master/hbase20xsqlwriter/doc/hbase20xsqlwriter.md 
 
Please save the following configuration as a json file and  use
     python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
to run the job.

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "clickhousereader", 
                    "parameter": {
                        "column": [], 
                        "connection": [
                            {
                                "jdbcUrl": [], 
                                "table": []
                            }
                        ], 
                        "password": "", 
                        "username": "", 
                        "where": ""
                    }
                }, 
                "writer": {
                    "name": "hbase20xsqlwriter", 
                    "parameter": {
                        "batchSize": "100", 
                        "column": [], 
                        "nullMode": "skip", 
                        "queryServerAddress": "", 
                        "schema": "", 
                        "serialization": "PROTOBUF", 
                        "table": ""
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}

创建Hbase和Phoenix表

DataX中Hbase2是通过Phoenix插入，所以也要同步创建Phoenix表

Hbase表创建

create 'test_datax',{NAME=>'cf'}

Phoenix表创建

create table "test_datax"("rowkey" varchar primary key, "cf"."data_id" varchar , "cf"."user_id" varchar, "cf"."name" varchar, "cf"."phone" varchar, "cf"."pt" varchar) column_encoded_bytes=0;

创建ClickHouse表

create table test_datax_ck
(
    data_id      String,
    user_id      Nullable(String),
    name    	 Nullable(String),
    phone        Nullable(String),
    pt           String
)
    engine = MergeTree PARTITION BY pt
        ORDER BY (pt)
        SETTINGS index_granularity = 8192;

写入ClickHouse测试数据

insert into test_datax_ck("data_id","user_id","name","phone","pt") values ('1','1','张三1',13577665544,'20210101');
insert into test_datax_ck("data_id","user_id","name","phone","pt") values ('2','2','张三2',13577665546,'20210101');
insert into test_datax_ck("data_id","user_id","name","phone","pt") values ('3','3','张三3',13577665545,'20210101');
insert into test_datax_ck("data_id","user_id","name","phone","pt") values ('4','4','张三4',13577665543,'20210102');

编写ClickHouse2Hbase配置文件

创建配置文件vim ck2hbase.json内容如下

{
    "job":{
        "content":[
            {
                "reader":{
                    "name":"clickhousereader",
                    "parameter":{
                        "column":[
                            "data_id",
                            "data_id",
                            "user_id",
                            "name",
                            "phone",
                            "pt"
                        ],
                        "connection":[
                            {
                                "jdbcUrl":[
                                    "jdbc:clickhouse://172.16.24.150:8123/ms_db?socket_timeout=7200000"
                                ],
                                "table":[
                                    "test_datax_ck"
                                ]
                            }
                        ],
                        "password":"root",
                        "username":"default",
                        "where":""
                    }
                },
                "writer":{
                    "name":"hbase20xsqlwriter",
                    "parameter":{
                        "batchSize":"100",
                        "column":[
                            "rowkey",
                            "data_id",
                            "user_id",
                            "name",
                            "phone",
                            "pt"
                        ],
                        "nullMode":"skip",
                        "queryServerAddress":"http://172.1.24.146:8765",
                        "serialization":"PROTOBUF",
                        "table":"test_datax"
                    }
                }
            }
        ],
        "setting":{
            "speed":{
                "channel":1
            }
        }
    }
}

执行同步命令

python bin/datax.py ck2hbase.json

2022-04-29 15:31:51.894 [job-0] INFO  JobContainer - 
任务启动时刻                    : 2022-04-29 15:31:48
任务结束时刻                    : 2022-04-29 15:31:51
任务总计耗时                    :                  2s
任务平均流量                    :              176B/s
记录写入速度                    :             12rec/s
读出记录总数                    :                  12
读写失败总数                    :                   0

https://blog.csdn.net/BOOLTechnology/article/details/120534070

拓展

ClickHouse同步到MySQL配置文件

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "clickhousereader", 
                    "parameter": {
                        "column": [
                            "one_id",
                            "aid",
                            "name",
                            "phone"
                        ], 
                        "connection": [
                            {
                                "jdbcUrl": ["jdbc:clickhouse://172.1.24.171:8123/default?socket_timeout=7200000"], 
                                "table": ["ads_user_test"]
                            }
                        ], 
                        "password": "", 
                        "username": "", 
                        "where": ""
                    }
                }, 
                "writer": {
                    "name": "mysqlwriter", 
                    "parameter": {
                        "print": true,
                        "column": [
                             "one_id",
                            "aid",
                            "name",
                            "phone"
                        ], 
                        "connection": [
                            {
                                "jdbcUrl": ["jdbc:mysql://172.1.24.143:3306/test"], 
                                "table": ["test20220429"]
                            }
                        ], 
                        "password": "root", 
                        "preSql": [], 
                        "session": [], 
                        "username": "root", 
                        "writeMode": ""
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DataX

Hbase

大数据

Hadoop

DataX下载安装使用的相关文章

映射减少计数示例

我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例一个标准mapreduce program 我希望map函数收集一些信息并返回形成如下的reduce函数map
HDFS 在大量小文件和 128 Mb 块大小上的行为

我有很多多达数十万个小文件每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗我见过相当矛盾的答案答案说最小的文件占用整个块 https stac
是否可以直接从文件加载镶木地板表？

如果我有一个二进制数据文件可以转换为 csv 格式有什么方法可以直接从中加载镶木地板表吗许多教程显示将 csv 文件加载到文本表然后从文本表加载到镶木地板表从效率的角度来看是否可以像我已有的那样直接从二进制文件加载镶木地板表理
Hive - 通过聚合跨组的值来创建映射列类型

我有一个看起来像这样的表 customer category room date 1 A aa d1 1 A bb d2 1 B cc d3 1 C aa d1 1 C bb d2 2 A aa d3 2 A bb d4 2 C bb d4
如何在hadoop/map reduce中创建固定行数的输出文件？

假设我们有 N 个具有不同行数的输入文件我们需要生成输出文件使得每个输出文件恰好有 K 行最后一个输出文件可以有是否可以使用单个 MR 作业来完成此操作我们应该打开文件以便在reducer中显式写入输出中的记录应该被打乱 tha
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
2017 年在 OS X 上从源代码构建 Apache Hadoop

到目前为止我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
从 Storm Bolt 将行插入 HBase

我希望能够从分布式非本地 Storm 拓扑将新条目写入 HBase 有一些 GitHub 项目提供以下任一功能 HBase 映射器 https github com ptgoetz storm hbase or 预制风暴螺栓 https
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
使用 Cassandra 进行单元版本控制

我的应用程序使用 AbstractFactory 作为 DAO 层因此一旦实现了 HBase DAO 系列创建 Cassandra DAO 系列并从多个角度查看差异对我来说将是非常好的不管怎样试图做到这一点我看到 Cassandr
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别

随机推荐

从键盘输入字符串，判断是否为回文字符串。回文字符串：如果一个字符串，从前向后读和从后向前读，都是一个字符串，则称为回文串，比如adminnimda，dad，mommom。源程序：

package Experiment Java test14 import java util Scanner public class test04 public static void main String args Scanner
嵌入式开发概述（树莓派介绍）

目录嵌入式定义嵌入式芯片选型 ARM架构 ARM树莓派嵌入式定义国内普遍认同的嵌入式系统的定义是以应用为中心以计算机技术为基础软硬件可裁剪适应应用系统对功耗可靠性成本体积功耗等严格要求的专用计算机系统嵌入式系统是软件
WPF Virtualization

WPF虚拟化技术分为UI 虚拟化和数据虚拟化第一种方法被称为 UI 虚拟化支持虚拟化用户界面的控件是足够聪明来创建只显示的是实际在屏幕上可见的数据项目所需的 UI 元素例如假设我们有一个滚动的列表框是绑定到 1 000 000 项目
微信小程序上线流程

1 打开微信公众平台扫码登录 2 点击成员管理我是接的别人开发的版本首先要管理员给我权限让我成为小程序的开发者按下图就可以添加成员了你要是开发者直接要他给你全勾上最后点击确认添加就行 3 点击微信开发者工具里的上传按钮或者hbu
C++项目实战-实际应用

目录典型IO的两个阶段网络IO Linux上的五种IO模型 1 阻塞 blocking 2 非阻塞 3 IO复用 4 信号驱动 5 异步 Web Server HTTP协议应用层的协议简介概述工作原理 HTTP 请求报文格式 H
秒传的原理

在本文中我们将介绍网盘秒传的基本原理和实现方法以及秒传的优缺点和应用场景网盘秒传的基本原理网盘秒传的基本原理是利用哈希算法如MD5或SHA 1 对文件进行特征值提取然后与服务器上已有的文件特征值进行比对如果发现相同的特征值就
C语言实现贪吃蛇小游戏

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一贪吃蛇实现的结构和方式 2 对窗口进行设置 3 对蛇进行初始化一源代码利用学会的知识做点小游戏前言控制台的欢乐就是这么简单提示以下是本篇文章
Vue3 Table 性能优化，减少 85% 渲染耗时

大厂技术高级前端 Node进阶点击上方程序员成长指北关注公众号回复1 加入高级Node交流群原文链接 https juejin cn post 7194516447932973112 作者 dev zuo 前段时间公司有一个比较
一个新的开始（非技术贴）

谈谈一个新的开始说实话从来没想过自己会有一刻坐在这里写博客因为一直以来都觉得自己会像父母所期望的那样考上公务员结婚生子过平凡的一生从大一以来自己都一直坚信这样对我来说是最最好的但今年大三用了短短一个月我就改变了想法可以说
38.驱动调试——printk

printk的用法 mz linux ChinaUnix博客 printk函数的用法 wwwlyj123321的博客 CSDN博客 printk 34 Linux printk分析使用 FILE FUNCTION LINE 调试诺谦博
freemarker---数字小数点格式化问题

保留小数的问题问题 http blog sina com cn s blog 7db125620101codn html http blog 163 com sir 876 blog static 117052232012102854524
SIM800C模块AT指令编程指南

SIM800C是一款四频GSM GPRS模块为城堡孔封装其性能稳定外观小巧能满足客户的多种需求 SIM80C工作频率为GSM GPRS850 900 180 190OMHz 可以低功耗实现语音 SMS和数据信息的传输 SIM800C
Java 线程池的submit的使用与分析.md

在Java5以后通过Executor来启动线程比用Thread的start 更好在新特征中可以很容易控制线程的启动执行和关闭过程还能使用线程池的特性上一篇我们介绍了线程池的基本用法和特性我们用的最多的是ExecutorServ
Springboot的创建步骤

1 创建Springboot模块 ider gt file gt new gt project gt Spring lnitializr gt 不选择default 默认 gt 选择custom定制网址 http start springb
Matlab实现无标度网络生成及其分析

文章目录引言社会网络分类 Barab si Albert无标度网络生成算法 MATLAB代码实现无向的无标度网络生成代码BAgraph undir 有向的无标度网络生成代码BAgraph dir 无标度网络的节点度统计分析无向的无标
机器学习常识 3: 分类、回归、聚类

摘要本贴描述分类回归聚类问题的基本概念 1 基本概念机器学习常识 2 数据类型从输入数据的角度来进行讨论这里从输出数据或者目标的角度来讨论分类是指将一个样本预测为给定类别之一也称为该样本打标签例 1 如果我去向那个女生表白
API接口原理实现及应用

API Application Programming Interface 接口是现代软件开发中不可或缺的一部分它们提供了一种机制使得不同的应用程序和服务可以相互通信共享数据和功能在这篇文章中我们将探讨API接口的原理实现及应用
stable diffusion ——img2img Api参数数据格式参考，插件包含ControlNet和roop换脸

init images resize mode 0 denoising strength 1 0 image cfg scale 1 5 mask mask blur 4 inpainting fill 2 inpaint full res
【SQL】19 SQL函数

SQL 拥有很多可用于计数和计算的内建函数 SQL Aggregate 函数 SQL Aggregate 函数计算从列中取得的值返回一个单一的值有用的 Aggregate 函数 AVG 返回平均值 COUNT 返回行数 FIRST 返回
DataX下载安装使用

文章目录 01 Clickhouse到HBase Phoenix 数据导入 DataX 介绍下载执行同步的组件配置数据同步查看官方读写配置样例创建Hbase和Phoenix表创建ClickHouse表写入ClickHouse测