阿里 datax工具 impala 数据导入到mongo

2023-05-16

datax下载地址

1、解压datax包

2、具体安装测试datax工具可以在网上进行查询。其对jdk python maven 都有版本的要求。需确认当前系统中的版本。datax安装以及测试方式

3、确认安装无误后，在安装目录下，或者安装目录的bin目录下新建一个json文件，文件名称自定义。新建的json文件格式（datax bin目录下执行python datax.py -r mysqlreader -w musqlwriter 命令可得到json文件的模板）

4、impala 导入输入到mongo 样例

{
    "job": {
        "content": [
            {
            //数据来源
            "reader": {
                     "name": "hdfsreader",
                     "parameter": {
                         "path": "/user/hive/warehouse/***.db/***/*", // impala  数据库内存储的数据文件，最后的/* 表示将读取该目录下的所有文件，此处如果未修改库内文件的读写权限会报错。
                         "defaultFS": "hdfs://**.**.**.**:8022",  // Hadoop HDFS文件系统namenode节点地址 个人理解 impala  访问地址与端口号
                         "column": [    // 读取字段列表，type指定源数据的类型，index指定当前列来自于文本第几列（以0开始）
                                {
                                 "index": 0,
                                 "type": "string"
                                }
                         ],
                         "hadoopConfig": { "dfs.data.transfer.protection": "integrity" },  //配置与Hadoop相关的一些高级参数，例如HA的配置
                         "haveKerberos": true,  //是否有Kerberos认证，默认为false。例如用户配置为true，则配置项kerberosKeytabFilePath和kerberosPrincipal为必填。
                         "kerberosKeytabFilePath": "/home/keytab/impala.keytab",  //Kerberos认证keytab文件的绝对路径。如果haveKerberos为true，则必选。
                         "kerberosPrincipal": "impala/hadoop01@HADOOP.COM", //Kerberos认证Principal名，如****/hadoopclient@**.*** 。如果haveKerberos为true，则必选。
                         "fileType": "text",   // 数据文件类型  表示TextFile文件格式。还包括ORC、RC、SEQ、CSV和parquet 等格式
                         "encoding": "UTF-8",       //读取文件的编码配置。
                         "fieldDelimiter": "\u0001"    //读取的字段分隔符
                     }
 
                 },

                 // 数据导出 去处
                  "writer": {
                                     "name": "mongodbwriter",  
                                     "parameter": {  //  配置数据库相关信息
                                         "address": [  // mongo 地址 集群
                                             "***.***.***.***:****"
                                         ],
                                         "userName": "kafka",       // 链接数据库用户名
                                         "userPassword": "123456",  // 链接数据库密码
                                         "dbName": "kafka",         //数据库名称
                                         "collectionName": "tydm_0303_z", //数据库表名
                                         "column": [    // mongo  内存储的 字段名与类型
                                             {
                                                 "name":"tydm",
                                                 "type":"string"
                                             }
                                            
                                         ],
                                         "writeMode": {
                                             "isReplace": "false",
                                             "replaceKey": "_id"
                                         }
                                     }
                                 }
            }
        ],  
        "setting": {
            "speed": {
                "channel": "1"
            }
        }
    }
 }

执行导入命令： datax安全路径/bin datax.py json文件目录

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DataX

impala

mongo

数据导入到

阿里 datax工具 impala 数据导入到mongo 的相关文章

dataX连接oracle报实例名错误

oracleCDB数据库 xff1a 实例名CS 34 jdbcUrl 34 34 jdbc oracle thin 64 10 10 10 242 1521 xff1a CS 34 oraclePDB数据库 xff1a 实例名CS 34
【dataX推送数据之mysql到mysql】

前言大数据项目上的一个小功能实现 xff0c 需要将现有天数据表中的数据求和 xff0c 得到月数据表供页面展示 xff0c 干脆直接dataX推送数据实现 xff0c 读取mysql xff08 使用sql聚合查询计算 xff09 xf
Root cause: BlockMissingException【查看修复HDFS中丢失的块】ORG.APACHE.HADOOP.HDFS.BLOCKMISSINGEXCEPTION: COULD

首先得好看有多少损坏的文件其中需要使用Hadoop的fsck命令以下是官方解释用法 hadoop fsck 路径以上将会展示该路径下所有受损的文件最后用 delete 可以清除掉所有受损的文件
基于SPI机制和DataX插件热加载破坏双亲委派的思考

在开始阅读之前请先思考以下两个问题并希望您能再接下来的文章中找到答案 1 如果我自己实现了一个新的java lang String类并通过UrlClassLoader加载使用该类能否覆盖JDK中的 java lang String 2
MySQL数据库实现本地数据库和远程服务器数据库数据同步

项目中有两个数据库本地数据库和远程服务器数据库数据要在本地经过数据洗涤后才传上服务器数据库之前用的Navicat工具但是速度慢且无法设置定时同步后来改用Datax 它的效率真的非常高 DataX 是阿里巴巴集团内被广泛使用的离线
mongo-删除重复数据

mongo 删除重复数据使用aggregate聚合查询重复数据 group中是查询条件根据你的字段来聚合相同的数据 count用来统计重复出现的次数 match来过滤没有重复的数据 db getCollection 你的集合名 aggr
DataX同步数据到StarRocks问题记录

目录需求问题 1 连接失败 2 Too Many Versions 3 特殊字符问题 4 类型转换为问题 5 时区问题 6 权限问题其他需求最近一段时间在做数据治理的数据中台项目前两天项目上线整个数据治理的流程是先从数据归集到
Impala基础知识

概述 Impala是由Cloudera公司开发的新型查询系统参照Dremel系统进行设计的提供SQL语义能查询存储在Hadoop的HDFS和HBase上的PB级大数据在性能上比Hive高出3 30倍基于Hive的大数据实时分析查询
为什么连接HBase报错：Will not attempt to authenticate using SASL (unknown error)？

问题现象访问CloudTable的HBase连接不上出现如下所示的错误信息 Opening socket connection to server 192 168 0 107 192 168 0 107 2181 Will not at
基于docker安装mongo

1 背景基于业务的需求部分数据量较大基本一天的数据量都在1亿左右关系型数据库已经满足不了了要求所以更换为非关系型数据库当然非关系型数据库的种类有很多我们选择的是mongo 要想了解熟悉mongo 不能只做书面上的功夫必须较强
impala Select语句

Impala SELECT语句用于从数据库中的一个或多个表中提取数据此查询以表的形式返回数据语句以下是Impala select语句的语法 SELECT column1 column2 columnN from table name
mongo数据同步的三种方案

一直接复制data目录需要停止源和目标的mongo服务 1 针对目标mongo服务已经存在并正在运行的 mongo2 gt mongo 执行步骤 1 停止源目标服务器的mongo服务 mongod dbpath usr local
apache impala 启动提示 java/lang/NoClassDefFoundError: java/lang/Object

测试基于apache impala 4 1 0 版本如果出现该错误 Error occurred during initialization of VM java lang NoClassDefFoundError java lang O
mongo- spring boot 操作- and or查询

mongo spring boot 操作 and or查询场景 select from user where address 上海 age gt 10 and name 小明 or nickName like 小明以前查询在 mongo
在 hive 或 impala 中计算表统计信息如何加速 Spark SQL 中的查询？

为了提高性能例如连接建议首先计算表静态数据在蜂巢我可以做 analyze table table compute statistics 在黑斑羚 compute stats table 我的 Spark 应用程序从 hive 表读取
有没有办法用带参数的sql脚本运行impala shell？

有没有办法使用带参数的 SQL 脚本运行 impala shell 例如 impala shell f home john sql load sql dir1 dir2 dir3 data file 我收到错误错误无法解析参数 f ho
在 hql 脚本中，我们使用“!sh echo ---new line---”来表示相同的 .想知道 impala 中的替代方案来打印 impala 脚本中的任何行吗？

在 hql 脚本中我们使用 sh echo new line 来表示相同的想知道 impala 中的替代方案来打印 impala 脚本中的任何行吗您可以从 impala 脚本调用 shell 命令行作为其工作原理的示例 script
在 Hive 中将字符串转换为时间戳

我有一个值 2017 09 27T19 25 15 927 07 00 有什么方法可以将其转换为时间戳吗我使用 Hive 1 1 0 select unix timestamp 2017 09 27T19 25 15 927 07 00
如何高效更新文件修改频繁的Impala表

我们有一个基于 Hadoop 的解决方案 CDH 5 15 我们可以在 HDFS 的某些目录中获取新文件在这些目录的顶部我们有 4 5 个 Impala 2 1 表在 HDFS 中写入这些文件的过程是 Spark Structured
是否可以直接从文件加载镶木地板表？

如果我有一个二进制数据文件可以转换为 csv 格式有什么方法可以直接从中加载镶木地板表吗许多教程显示将 csv 文件加载到文本表然后从文本表加载到镶木地板表从效率的角度来看是否可以像我已有的那样直接从二进制文件加载镶木地板表理

随机推荐

49天精通Java，第9天，java final关键字

nbsp 目录一 final nbsp 1 修饰引用 nbsp 2 修饰方法 3 修饰类二 Java中的对象析构与finalize方法
正点原子----Linux设备树详解

linux设备树 1 什么是设备树2 DTS DTB DTC的关系3 如何编译设备树4 DTS基本结构4 1 语法4 2 设备树在系统中的体现4 3 尝试自己添加节点4 4 尝试对根节点追加信息 5 设备树特殊节点5 1 chosen子节点
《嵌入式实时操作系统µC/OS-II》学习笔记(二)

第三章 xff1a 内核结构临界段 xff1a 也就是需要保证原子操作的代码段由这里的说法 xff0c 绝大多数或者说所有的 xff08 xff09 内核都是都是使用开关中断的方式来处理在 uC OS II 中 xff0c 使用 OS
SHELL-----脚本执行、定义变量、特殊变量、read的用法、命令结果赋值给变量

一三种脚本执行方法 1 sh script sh bash script sh 没有执行权限时 2 path script sh script sh 绝对路径 xff0c 当前目录下 3 source script sh script s
Mybatis-查询数据传入传出和CRUD

Mybatis 查询语句的入参类型基本类型 javabean类型 xff1a 使用时要与属性名对应根据对象的属性名获取属性值 map类型 xff1a 匹配參數集合map中key的名字数组 list类型 xff1a foreach遍历
Ubuntu18.04上编译并跑通VINS-Fusion

VINS Fusion github 地址 xff1a GitHub HKUST Aerial Robotics VINS Fusion An optimization based multi sensor state estimator
北邮人论坛求职版面：各种经验总结

http bbs byr cn article WorkLife 886969 p 61 2 我觉得技术工作优先级是 0 xff09 业务前途 xff0c 决定你的上升空间 1 xff09 技术方向 xff0c 决定你在人力市场上的价格 2
Centos7防火墙常用命令

一系统防火墙 1 启动防火墙 systemctl start firewalld 2 关闭防火墙 systemctl stop firewalld 3 查看状态 systemctl status firewalld 4 开机启用防火墙 s
java操作hbase

java 对 Hbase 的操作一引入pom span class token comment lt https mvnrepository com artifact org apache hbase hbase client gt s
怎么用vnc访问自己电脑，并且同时又是同一个会话？

1 运行 vncserver alwaysshared 网友也用这样的 xff1a vncserver alwaysshared 1 geometry 1440 900 2 在ubuntu的系统工具中有个 xff1a 桌面共享最上面的两个
VMware Workstation+Ubuntu20.04LTS虚拟机+VMware Tools安装的那些事（有手就会）

VMware Workstation 16 43 Ubuntu20 04虚拟机 43 VMware Tools安装的那些事安装系统的选项 xff1a 1 实体机 xff1a 可能会出现硬件不支持所以说不推荐 2 双系统每次开机登录需要
一篇文章带你彻底吃透Java NIO

目录一 I O模型二 BIO NIO AIO应用场景三 BIO编程简单流程四 NIO核心五 BIO与NIO比较六 NIO 三大核心原理示意图七缓冲区 buffer 1 常用Buffer子类一览 2 buffer四大属性 3
图像物体分类与检测算法综述

图像物体分类与检测算法综述转自计算机学报目录图像物体分类与检测算法综述目录图像物体分类与检测概述物体分类与检测的难点与挑战物体分类与检测数据库物体分类与检测发展历程图像物体分类与检测是计算机视觉研究中的两个重要的基本问题 xff
海康威视网络摄像头SDK二次开发（QT版本）

暂时使用到的主要功能有四个 xff1a 1 连接相机 xff0c 2 实时显示 xff0c 3 取图 xff08 bmp格式 xff09 xff0c 4 关闭相机在官网下载对应的win64的SDK xff0c 在库文件中运行demo ex
Android7.0成长之路---新特性Jack server

准备今天正式担任Android7 0 N 项目模块的开发和维护工作 xff0c 借此机会git和make了一套系统代码用来研究在编译的过程中 xff0c 与以往系统不同的是Android7 0系统编译工具链使用了全新的Jack serv
A-Softmax(SphereFace)

论文 xff1a SphereFace xff1a https arxiv org abs 1704 08063 SphereFace在MegaFace数据集上识别率在2017年排名第一 xff0c 用的A Softmax Loss有着清晰
Java 面试题宝典 (每天更新)

目录一 Java 基础部分第一天 1 一个 34 java 34 源文件中是否可以包括多个类 xff08 不是内部类 xff09 xff1f 有什么限制 2 Java 有没有 goto 3 说说 amp 和 amp amp 的区别 4
skyfans之每天一个Liunx命令系列之三十三：chomd

今天我们继续来学习每天一个命令 xff0c 今天我们继续学习此章节内容 xff1a 文件权限管理类命令 xff08 FILE PERMISSIONS xff09 xff0c 今天学习的是什么命令呢 xff0c 那就是chmod xff08
部署node_exporter

部署node exporter 1 下载node exporter安装包 xff0c 解压安装 span class token punctuation span root 64 bogon ljy span class token pun
阿里 datax工具 impala 数据导入到mongo

datax下载地址 1 解压datax包 2 具体安装测试datax工具可以在网上进行查询其对jdk python maven 都有版本的要求需确认当前系统中的版本 datax安装以及测试方式 3 确认安装无误后 xff0c 在安装目录

阿里 datax工具 impala 数据导入到mongo

阿里 datax工具 impala 数据导入到mongo 的相关文章

随机推荐

热门标签