DataX下载安装使用

2023-11-15

01.Clickhouse到HBase(Phoenix)数据导入 DataX

介绍

DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

下载

# 官方版本
wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

# 编译好ClickHouse和Hbase2的版本
链接:https://pan.baidu.com/s/1IYU93oGOnvcx34HJaPDudQ 
提取码:bool

解压

tar -zxvf datax.tar.gz

解压后目录结构如下

[root@dev-bigdata-24-146 datax]# ls
bin  conf  job  lib  log  log_perf  plugin  script  tmp

执行同步的组件

reader下是支持读的组件

writer下是支持写的组件

[root@dev-bigdata-24-146 datax]# tree -L 2 plugin/
plugin/
├── reader
│   ├── cassandrareader
│   ├── clickhousereader
│   ├── dbffilereader
│   ├── drdsreader
│   ├── elasticsearchreader
│   ├── ftpreader
│   ├── gaussdbreader
│   ├── gbasereader
│   ├── gdbreader
│   ├── hbase094xreader
│   ├── hbase11xkerberosreader
│   ├── hbase11xreader
│   ├── hbase11xsqlreader
│   ├── hbase20xsqlreader
│   ├── hdfsreader
│   ├── httpreader
│   ├── influxdbreader
│   ├── jsonfilereader
│   ├── kingbaseesreader
│   ├── kudureader
│   ├── mongodbreader
│   ├── mysql8reader
│   ├── mysqlreader
│   ├── odpsreader
│   ├── opentsdbreader
│   ├── oraclereader
│   ├── oscarreader
│   ├── ossreader
│   ├── otsreader
│   ├── otsstreamreader
│   ├── postgresqlreader
│   ├── rdbmsreader
│   ├── redisreader
│   ├── sqlserverreader
│   ├── streamreader
│   ├── tdenginereader
│   └── txtfilereader
└── writer
    ├── adbpgwriter
    ├── adswriter
    ├── cassandrawriter
    ├── clickhousewriter
    ├── dbffilewriter
    ├── dorisdbwriter
    ├── doriswriter
    ├── drdswriter
    ├── elasticsearchwriter
    ├── ftpwriter
    ├── gaussdbwriter
    ├── gbasewriter
    ├── gdbwriter
    ├── greenplumwriter
    ├── hbase094xwriter
    ├── hbase11xkerberoswriter
    ├── hbase11xsqlwriter
    ├── hbase11xwriter
    ├── hbase20xsqlwriter
    ├── hdfswriter
    ├── influxdbwriter
    ├── kingbaseeswriter
    ├── kuduwriter
    ├── mongodbwriter
    ├── mysql8writer
    ├── mysqlwriter
    ├── ocswriter
    ├── odpswriter
    ├── oraclewriter
    ├── oscarwriter
    ├── osswriter
    ├── otswriter
    ├── postgresqlwriter
    ├── rdbmswriter
    ├── rediswriter
    ├── sqlserverwriter
    ├── streamwriter
    ├── tdenginewriter
    ├── tsdbwriter
    └── txtfilewriter

配置数据同步

本文介绍使用的是CDH6.3.2所带的之间HBase 版本2.1.0版本,需要安装Phoenix

Phoenix安装方法参考:https://datamining.blog.csdn.net/article/details/105572156

查看官方读写配置样例

命令:python bin/datax.py -r clickhousereader -w hbase20xsqlwriter

[root@jast datax]# python bin/datax.py -r clickhousereader -w hbase20xsqlwriter

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.


Please refer to the clickhousereader document:
     https://github.com/alibaba/DataX/blob/master/clickhousereader/doc/clickhousereader.md 

Please refer to the hbase20xsqlwriter document:
     https://github.com/alibaba/DataX/blob/master/hbase20xsqlwriter/doc/hbase20xsqlwriter.md 
 
Please save the following configuration as a json file and  use
     python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
to run the job.

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "clickhousereader", 
                    "parameter": {
                        "column": [], 
                        "connection": [
                            {
                                "jdbcUrl": [], 
                                "table": []
                            }
                        ], 
                        "password": "", 
                        "username": "", 
                        "where": ""
                    }
                }, 
                "writer": {
                    "name": "hbase20xsqlwriter", 
                    "parameter": {
                        "batchSize": "100", 
                        "column": [], 
                        "nullMode": "skip", 
                        "queryServerAddress": "", 
                        "schema": "", 
                        "serialization": "PROTOBUF", 
                        "table": ""
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}

创建Hbase和Phoenix表

DataX中Hbase2是通过Phoenix插入,所以也要同步创建Phoenix表

Hbase表创建

create 'test_datax',{NAME=>'cf'}

Phoenix表创建

create table "test_datax"("rowkey" varchar primary key, "cf"."data_id" varchar , "cf"."user_id" varchar, "cf"."name" varchar, "cf"."phone" varchar, "cf"."pt" varchar) column_encoded_bytes=0;

创建ClickHouse表

create table test_datax_ck
(
    data_id      String,
    user_id      Nullable(String),
    name    	 Nullable(String),
    phone        Nullable(String),
    pt           String
)
    engine = MergeTree PARTITION BY pt
        ORDER BY (pt)
        SETTINGS index_granularity = 8192;

写入ClickHouse测试数据

insert into test_datax_ck("data_id","user_id","name","phone","pt") values ('1','1','张三1',13577665544,'20210101');
insert into test_datax_ck("data_id","user_id","name","phone","pt") values ('2','2','张三2',13577665546,'20210101');
insert into test_datax_ck("data_id","user_id","name","phone","pt") values ('3','3','张三3',13577665545,'20210101');
insert into test_datax_ck("data_id","user_id","name","phone","pt") values ('4','4','张三4',13577665543,'20210102');

编写ClickHouse2Hbase配置文件

创建配置文件vim ck2hbase.json内容如下

{
    "job":{
        "content":[
            {
                "reader":{
                    "name":"clickhousereader",
                    "parameter":{
                        "column":[
                            "data_id",
                            "data_id",
                            "user_id",
                            "name",
                            "phone",
                            "pt"
                        ],
                        "connection":[
                            {
                                "jdbcUrl":[
                                    "jdbc:clickhouse://172.16.24.150:8123/ms_db?socket_timeout=7200000"
                                ],
                                "table":[
                                    "test_datax_ck"
                                ]
                            }
                        ],
                        "password":"root",
                        "username":"default",
                        "where":""
                    }
                },
                "writer":{
                    "name":"hbase20xsqlwriter",
                    "parameter":{
                        "batchSize":"100",
                        "column":[
                            "rowkey",
                            "data_id",
                            "user_id",
                            "name",
                            "phone",
                            "pt"
                        ],
                        "nullMode":"skip",
                        "queryServerAddress":"http://172.1.24.146:8765",
                        "serialization":"PROTOBUF",
                        "table":"test_datax"
                    }
                }
            }
        ],
        "setting":{
            "speed":{
                "channel":1
            }
        }
    }
}

执行同步命令

python bin/datax.py ck2hbase.json

2022-04-29 15:31:51.894 [job-0] INFO  JobContainer - 
任务启动时刻                    : 2022-04-29 15:31:48
任务结束时刻                    : 2022-04-29 15:31:51
任务总计耗时                    :                  2s
任务平均流量                    :              176B/s
记录写入速度                    :             12rec/s
读出记录总数                    :                  12
读写失败总数                    :                   0

https://blog.csdn.net/BOOLTechnology/article/details/120534070

拓展

ClickHouse同步到MySQL配置文件

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "clickhousereader", 
                    "parameter": {
                        "column": [
                            "one_id",
                            "aid",
                            "name",
                            "phone"
                        ], 
                        "connection": [
                            {
                                "jdbcUrl": ["jdbc:clickhouse://172.1.24.171:8123/default?socket_timeout=7200000"], 
                                "table": ["ads_user_test"]
                            }
                        ], 
                        "password": "", 
                        "username": "", 
                        "where": ""
                    }
                }, 
                "writer": {
                    "name": "mysqlwriter", 
                    "parameter": {
                        "print": true,
                        "column": [
                             "one_id",
                            "aid",
                            "name",
                            "phone"
                        ], 
                        "connection": [
                            {
                                "jdbcUrl": ["jdbc:mysql://172.1.24.143:3306/test"], 
                                "table": ["test20220429"]
                            }
                        ], 
                        "password": "root", 
                        "preSql": [], 
                        "session": [], 
                        "username": "root", 
                        "writeMode": ""
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

DataX下载安装使用 的相关文章

  • 映射减少计数示例

    我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例 一个标准mapreduce program 我希望map函数收集一些信息 并返回形成如下的reduce函数map
  • HDFS 在大量小文件和 128 Mb 块大小上的行为

    我有很多 多达数十万个 小文件 每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗 我见过相当矛盾的答案 答案说最小的文件占用整个块 https stac
  • 是否可以直接从文件加载镶木地板表?

    如果我有一个二进制数据文件 可以转换为 csv 格式 有什么方法可以直接从中加载镶木地板表吗 许多教程显示将 csv 文件加载到文本表 然后从文本表加载到镶木地板表 从效率的角度来看 是否可以像我已有的那样直接从二进制文件加载镶木地板表 理
  • Hive - 通过聚合跨组的值来创建映射列类型

    我有一个看起来像这样的表 customer category room date 1 A aa d1 1 A bb d2 1 B cc d3 1 C aa d1 1 C bb d2 2 A aa d3 2 A bb d4 2 C bb d4
  • 如何在hadoop/map reduce中创建固定行数的输出文件?

    假设我们有 N 个具有不同行数的输入文件 我们需要生成输出文件 使得每个输出文件恰好有 K 行 最后一个输出文件可以有 是否可以使用单个 MR 作业来完成此操作 我们应该打开文件以便在reducer中显式写入 输出中的记录应该被打乱 tha
  • java.lang.IllegalArgumentException:错误的 FS:,预期:hdfs://localhost:9000

    我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存 但在stderr中检查时它没有查找值 它显示以下错误 lookupfile文件已经存在于hdfs中 并且似乎已正确加载进入缓存 如标准输出中
  • 如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat?

    我想编写多个输出文件 如何使用 Job 而不是 JobConf 来执行此操作 创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
  • 无法从 JAR 文件加载主类

    我有一个 Spark scala 应用程序 我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系 我成功显示了我的消息 但他显示了错误 像这样 Hello my applicat
  • Hive 中字符串数据类型是否有最大大小?

    谷歌了很多 但没有在任何地方找到它 或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型 如果是这样 我在哪里可以找到我的集群可以支持的最大字符串数据类型大小 提前致谢 Hive 列表的当前文档STRING作为有效的数据类
  • 在 Hive 中分解一行 XML 数据

    我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中 我们正在尝试检索数据级别 并将其标准化或分解为单行进行处理 你知道 就像表格一样 已经尝试过分解功能 但没有得到我们想要的 示例 XML
  • 2017 年在 OS X 上从源代码构建 Apache Hadoop

    到目前为止 我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息 我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
  • 从 Storm Bolt 将行插入 HBase

    我希望能够从分布式 非本地 Storm 拓扑将新条目写入 HBase 有一些 GitHub 项目提供以下任一功能 HBase 映射器 https github com ptgoetz storm hbase or 预制风暴螺栓 https
  • R+Hadoop:如何从HDFS读取CSV文件并执行mapreduce?

    在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
  • 将日期字符串转换为“MM/DD/YY”格式

    我刚刚看到这个例子 我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库 其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
  • hadoop中reducer的数量

    我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以 节点数 每个节点的最大容器数 3 减速机数量设定为mapred re
  • 如何通过sparkSession向worker提交多个jar?

    我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
  • 猪参考

    我正在学习 Hadoop Pig 并且我总是坚持引用元素 请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
  • hive 从两个数组创建映射或键/值对

    我有两个具有相同数量值的数组 它们映射为 1 1 我需要从这两个数组创建一个键 值对或映射 键 值 任何想法或提示都会有帮助 当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
  • 使用 Cassandra 进行单元版本控制

    我的应用程序使用 AbstractFactory 作为 DAO 层 因此一旦实现了 HBase DAO 系列 创建 Cassandra DAO 系列并从多个角度查看差异对我来说将是非常好的 不管怎样 试图做到这一点 我看到 Cassandr
  • 在映射器的单个输出上运行多个减速器

    我正在使用地图缩减实现左连接功能 左侧有大约 6 亿条记录 右侧有大约 2300 万条记录 在映射器中 我使用左连接条件中使用的列来创建键 并将键值输出从映射器传递到减速器 我遇到性能问题 因为两个表中的值数量都很高的映射器键很少 例如分别

随机推荐

  • 从键盘输入字符串,判断是否为回文字符串。 回文字符串:如果一个字符串,从前向后读和从后向前读,都是一个字符串,则称为回文串,比如adminnimda,dad,mommom。 源程序:

    package Experiment Java test14 import java util Scanner public class test04 public static void main String args Scanner
  • 嵌入式开发概述(树莓派介绍)

    目录 嵌入式定义 嵌入式芯片选型 ARM架构 ARM树莓派 嵌入式定义 国内普遍认同的嵌入式系统的定义是以应用为中心 以计算机技术为基础 软硬件可裁剪 适应应用系统对功耗 可靠性 成本 体积 功耗等严格要求的专用计算机系统 嵌入式系统是软件
  • WPF Virtualization

    WPF虚拟化技术分为UI 虚拟化和数据虚拟化 第一种方法被称为 UI 虚拟化 支持虚拟化用户界面的控件是足够聪明来创建只显示的是实际在屏幕上可见的数据项目所需的 UI 元素 例如 假设我们有一个滚动的列表框是绑定到 1 000 000 项目
  • 微信小程序上线流程

    1 打开微信公众平台扫码登录 2 点击成员管理 我是接的别人开发的版本 首先要管理员给我权限 让我成为小程序的开发者 按下图就可以添加成员了 你要是开发者直接要他给你全勾上 最后点击确认添加就行 3 点击微信开发者工具里的上传按钮或者hbu
  • C++项目实战-实际应用

    目录 典型IO的两个阶段 网络IO Linux上的五种IO模型 1 阻塞 blocking 2 非阻塞 3 IO复用 4 信号驱动 5 异步 Web Server HTTP协议 应用层的协议 简介 概述 工作原理 HTTP 请求报文格式 H
  • 秒传的原理

    在本文中 我们将介绍网盘秒传的基本原理和实现方法 以及秒传的优缺点和应用场景 网盘秒传的基本原理 网盘秒传的基本原理是利用哈希算法 如MD5或SHA 1 对文件进行特征值提取 然后与服务器上已有的文件特征值进行比对 如果发现相同的特征值 就
  • C语言实现贪吃蛇小游戏

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 文章目录 前言 一 贪吃蛇实现的结构和方式 2 对窗口进行设置 3 对蛇进行初始化 一 源代码 利用学会的知识做点小游戏 前言 控制台的欢乐就是这么简单 提示 以下是本篇文章
  • Vue3 Table 性能优化,减少 85% 渲染耗时

    大厂技术 高级前端 Node进阶 点击上方 程序员成长指北 关注公众号 回复1 加入高级Node交流群 原文链接 https juejin cn post 7194516447932973112 作者 dev zuo 前段时间公司有一个比较
  • 一个新的开始(非技术贴)

    谈谈一个新的开始 说实话 从来没想过自己会有一刻坐在这里写博客 因为一直以来都觉得自己会像父母所期望的那样考上公务员 结婚生子 过平凡的一生 从大一以来 自己都一直坚信这样对我来说是最最好的 但今年大三 用了短短一个月我就改变了想法 可以说
  • 38.驱动调试——printk

    printk的用法 mz linux ChinaUnix博客 printk函数的用法 wwwlyj123321的博客 CSDN博客 printk 34 Linux printk分析 使用 FILE FUNCTION LINE 调试 诺谦 博
  • freemarker---数字小数点格式化问题

    保留小数的问题问题 http blog sina com cn s blog 7db125620101codn html http blog 163 com sir 876 blog static 117052232012102854524
  • SIM800C模块AT指令编程指南

    SIM800C是一款四频GSM GPRS模块 为城堡孔封装 其性能稳定 外观小巧 能满足客户的多种需求 SIM80C工作频率为GSM GPRS850 900 180 190OMHz 可以低功耗实现语音 SMS和数据信息的传输 SIM800C
  • Java 线程池的submit的使用与分析.md

    在Java5以后 通过Executor来启动线程比用Thread的start 更好 在新特征中 可以很容易控制线程的启动 执行和关闭过程 还能使用线程池的特性 上一篇我们介绍了线程池的基本用法和特性 我们用的最多的是ExecutorServ
  • Springboot的创建步骤

    1 创建Springboot模块 ider gt file gt new gt project gt Spring lnitializr gt 不选择default 默认 gt 选择custom定制网址 http start springb
  • Matlab实现无标度网络生成及其分析

    文章目录 引言 社会网络分类 Barab si Albert无标度网络生成算法 MATLAB代码实现 无向的无标度网络生成代码BAgraph undir 有向的无标度网络生成代码BAgraph dir 无标度网络的节点度统计分析 无向的无标
  • 机器学习常识 3: 分类、回归、聚类

    摘要 本贴描述分类 回归 聚类问题的基本概念 1 基本概念 机器学习常识 2 数据类型从输入数据的角度来进行讨论 这里从输出数据 或者目标的角度来讨论 分类是指将一个样本预测为给定类别之一 也称为该样本打标签 例 1 如果我去向那个女生表白
  • API接口原理实现及应用

    API Application Programming Interface 接口是现代软件开发中不可或缺的一部分 它们提供了一种机制 使得不同的应用程序和服务可以相互通信 共享数据和功能 在这篇文章中 我们将探讨API接口的原理 实现及应用
  • stable diffusion ——img2img Api参数数据格式参考,插件包含ControlNet和roop换脸

    init images resize mode 0 denoising strength 1 0 image cfg scale 1 5 mask mask blur 4 inpainting fill 2 inpaint full res
  • 【SQL】19 SQL函数

    SQL 拥有很多可用于计数和计算的内建函数 SQL Aggregate 函数 SQL Aggregate 函数计算从列中取得的值 返回一个单一的值 有用的 Aggregate 函数 AVG 返回平均值 COUNT 返回行数 FIRST 返回
  • DataX下载安装使用

    文章目录 01 Clickhouse到HBase Phoenix 数据导入 DataX 介绍 下载 执行同步的组件 配置数据同步 查看官方读写配置样例 创建Hbase和Phoenix表 创建ClickHouse表 写入ClickHouse测