datax下载地址
1、解压datax包
2、具体安装测试datax工具可以在网上进行查询。其对jdk python maven 都有版本的要求。需确认当前系统中的版本。datax安装以及测试方式
3、确认安装无误后,在安装目录下,或者安装目录的bin目录下新建一个json文件,文件名称自定义。新建的json文件格式(datax bin目录下执行python datax.py -r mysqlreader -w musqlwriter 命令可得到json文件的模板)
4、impala 导入输入到mongo 样例
{
"job": {
"content": [
{
//数据来源
"reader": {
"name": "hdfsreader",
"parameter": {
"path": "/user/hive/warehouse/***.db/***/*", // impala 数据库内存储的数据文件,最后的/* 表示将读取该目录下的所有文件,此处如果未修改库内文件的读写权限会报错。
"defaultFS": "hdfs://**.**.**.**:8022", // Hadoop HDFS文件系统namenode节点地址 个人理解 impala 访问地址与端口号
"column": [ // 读取字段列表,type指定源数据的类型,index指定当前列来自于文本第几列(以0开始)
{
"index": 0,
"type": "string"
}
],
"hadoopConfig": { "dfs.data.transfer.protection": "integrity" }, //配置与Hadoop相关的一些高级参数,例如HA的配置
"haveKerberos": true, //是否有Kerberos认证,默认为false。例如用户配置为true,则配置项kerberosKeytabFilePath和kerberosPrincipal为必填。
"kerberosKeytabFilePath": "/home/keytab/impala.keytab", //Kerberos认证keytab文件的绝对路径。如果haveKerberos为true,则必选。
"kerberosPrincipal": "impala/hadoop01@HADOOP.COM", //Kerberos认证Principal名,如****/hadoopclient@**.*** 。如果haveKerberos为true,则必选。
"fileType": "text", // 数据文件类型 表示TextFile文件格式。还包括ORC、RC、SEQ、CSV和parquet 等格式
"encoding": "UTF-8", //读取文件的编码配置。
"fieldDelimiter": "\u0001" //读取的字段分隔符
}
},
// 数据导出 去处
"writer": {
"name": "mongodbwriter",
"parameter": { // 配置数据库相关信息
"address": [ // mongo 地址 集群
"***.***.***.***:****"
],
"userName": "kafka", // 链接数据库用户名
"userPassword": "123456", // 链接数据库密码
"dbName": "kafka", //数据库名称
"collectionName": "tydm_0303_z", //数据库表名
"column": [ // mongo 内存储的 字段名与类型
{
"name":"tydm",
"type":"string"
}
],
"writeMode": {
"isReplace": "false",
"replaceKey": "_id"
}
}
}
}
],
"setting": {
"speed": {
"channel": "1"
}
}
}
}
执行导入命令 : datax安全路径/bin datax.py json文件目录
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)