DATAX 数据同步 My SQL->Hive

2023-10-31

DATAX 数据同步 My SQL->Hive

安装

DATAX官方地址:https://github.com/alibaba/DataX

DATAX-WEB官方地址:https://github.com/WeiYe-Jing/datax-web

注:官方已经给了很详细的安装文档。这里不过多解释。

遇到的问题

# 在跑job的时候遇到如下问题
/usr/bin/python: can't find '__main__' module in

# 解决办法
vim {datax-web}/modules/datax-executor/bin/datax-executor.sh 

# 找到对应的
JAVA_OPTS=${JAVA_OPTS}" -Dserver.port="${SERVER_PORT}" -Ddata.path="${DATA_PATH}" -Dexecutor.port="${EXECUTOR_PORT}" -Djson.path="${JSON_PATH}" -Dpython.path="${PYTHON_PATH}" -Ddatax.admin.port="${DATAX_ADMIN_PORT} 

# 修改如下
JAVA_OPTS=${JAVA_OPTS}" -Dserver.port="${SERVER_PORT}" -Ddata.path="${DATA_PATH}" -Dexecutor.port="${EXECUTOR_PORT}" -Djson.path="${JSON_PATH}" -Dpython.path="{datax}/bin/datax.py" -Ddatax.admin.port="${DATAX_ADMIN_PORT} 

# 最后重启datax-web
{datax-web}/bin/stop-all.sh 
{datax-web}/bin/start-all.sh 

问题二

# DataX报错解决办法 - 在有总bps限速条件下,单个channel的bps值不能为空,也不能为非正数
# 修改datax/conf/core.json
# 修改core -> transport -> channel -> speed -> "byte": 2000000
"core": {
        "dataXServer": {
            "address": "http://localhost:7001/api",
            "timeout": 10000,
            "reportDataxLog": false,
            "reportPerfLog": false
        },
        "transport": {
            "channel": {
                "class": "com.alibaba.datax.core.transport.channel.memory.MemoryChannel",
                "speed": {
                    "byte": 2000000,
                    "record": -1
                },
                "flowControlInterval": 20,
                "capacity": 512,
                "byteCapacity": 67108864
            },
            "exchanger": {
                "class": "com.alibaba.datax.core.plugin.BufferedRecordExchanger",
                "bufferSize": 32
            }
        },
}

mysqlToHiveDemo

  • 先新建一个项目

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CWuYJXIV-1679469085149)(./pic/1.jpg)]

  • 增加数据源

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9gr66ods-1679469085150)(./pic/2.jpg)]

  • 新构建任务

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R5vEHYGV-1679469085150)(./pic/3.jpg)]

  • 执行任务

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rDNvq7NU-1679469085151)(./pic/4.jpg)]

  • 查看日志

    图略。

注:这里说明一下分区表如何操作(这里演示静态分区)。

- 静态分区
create table student2(
    commentId int,
    newsId int,
    content String,
    userIP string,
    commentDate date
)
partitioned by (day string)
row format delimited fields terminated by '\t';

alter table student2 add partition (day=20230322);

执行脚本的时候修改如下

# 相关配置文件
"path": "/user/hive/warehouse/test.db/student2/day=20230322"

结果如下所示

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-U7e0cuqu-1679469085151)(./pic/5.jpg)]

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

DATAX 数据同步 My SQL->Hive 的相关文章

  • 使用 Hiveql 循环

    我正在尝试合并 2 个数据集 例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值 我并没有只是将两个数据合并在一起 而是尝试根据 标志 变量合并两个数据集 合并代码如下 create table new data as se
  • Oracle内置函数元数据

    有没有办法获取 Oracle 内置聚合和其他功能的元数据 例如AVG STDDEV SQRT ETC 我需要知道对象 id 和参数元 In the SYS ALL OBJECTS查看我找不到任何有用的东西 我也尝试过搜索SYS ALL AR
  • 存储过程总是返回0

    我试图从存储过程获取返回值 但它总是返回 0 c code cmd new SqlCommand cmd CommandType CommandType StoredProcedure cmd CommandText AbsentEntry
  • 显示一个表中的所有记录以及另一表中的匹配记录

    您好 我有一张下表 其中记录了活动和积分 Activites A ID Site ActivityValue ActivityName 1 site1 7 ActivityName1 2 site1 6 ActivityName2 2 si
  • 有没有办法在插入查询中执行另一个查询?

    好的 这是我的查询 我刚刚添加了 ACCOUNTID 和 accountID 部分 这显然不起作用 INSERT INTO Leads LEADID CREATEUSER CREATEDATE FIRSTNAME MODIFYDATE AC
  • 如何使用sql脚本更改列的属性

    如何使用 sql 脚本更改列的属性 这是我尝试过但出现错误的方法 ALTER TABLE dbo tblBiometricPattern COLUMN BiometricPatternID TINYINT NOT NULL IDENTITY
  • 如何在Oracle中从表中选择列,*?

    我正在创建很多脚本 有时为了检查表是否根据我的需要进行更新 我会即时编写几个 SELECT 语句 在 SQL SERVER 中你可以这样写 SELECT Column1 FROM MY TABLE 出于可见性原因 这很有用 但是这似乎在 O
  • 如何在事务中使用链接服务器插入远程表?

    我的链接服务器设置正确 我能够执行以下查询 插入 远程服务器 表 SELECT FROM 本地服务器 表 然而当我做同样的事情时交易内 开始传输 插入 远程服务器 表 SELECT FROM 本地服务器 表 提交交易 我收到类似的错误 用于
  • 通过Java从MySQL中获取大量记录

    有一个 MySQL 表 服务器上的用户 它有 28 行和 100 万条记录 也可能会增加 我想从这个表中获取所有行 对它们进行一些操作 然后将它们添加到 MongoDB 中 我知道通过简单的 从用户中选择 操作来检索这些记录将花费大量时间
  • 计算包含字母/数字的行数

    我想要实现的目标很简单 但是解释起来有点困难 我不知道在 postgres 中这是否真的可能 我处于相当基础的水平 SELECT FROM WHERE LEFT JOIN ON HAVING 等等基本的东西 我正在尝试计算包含特定字母 数字
  • 如何在 SQL Server 中保持数据行内

    我正在尝试找出如何检测数据是否在VARCHAR n SQL Server 2008 中的列存储在行内或行外 有谁知道如何做到这一点 另外 如果我们需要数据 有没有办法将数据保持在行中 要查看某个值是行内还是行外 您可以使用DBCC PAGE
  • 验证 sql/oracle 中的电子邮件/邮政编码字段

    对于以下方面的一些建议将不胜感激 是否可以通过 oracle 中的 sql 中的某种检查约束来验证电子邮件和邮政编码字段 或者我怀疑 pl sql 带有正则表达式的这种事情 Thanks 这是电子邮件地址的正则表达式语法 包括引号 a zA
  • Sql Server 的夏令时

    我们正在使用一个以 C Unix 格式存储日期的旧应用程序 C 时间基本上是自 1970 年 1 月 1 日以来的秒数 日期以整数形式存储在 SQL Server 数据库中 我正在为使用这些日期的报告编写视图 到目前为止 我正在使用以下命令
  • 优化 LATERAL join 中的慢速聚合

    在我的 PostgreSQL 9 6 2 数据库中 我有一个查询 该查询根据一些股票数据构建计算字段表 它为表中的每一行计算 1 到 10 年的移动平均窗口 并将其用于周期性调整 具体来说 CAPE CAPB CAPC CAPS 和 CAP
  • 与 SQL 中的 IN 运算符相反

    我怎么能做相反的事情 换句话说 选择所有姓氏不是 Hansen 或 Pettersen 的人 WHERE lastname NOT IN Hansen Pettersen 请参阅 IN 和 NOT IN 运算符 部分SQLite 所理解的
  • SQL Server Like 查询不区分大小写

    Query SELECT from Table 2 WHERE name like Joe Output 1 100 Joe 2 200 JOE 3 300 jOE 4 400 joe 为什么不区分大小写 Problem 查询不区分大小写
  • 合并sql中的列

    我正在使用 SQL Server 2017 有一个存储过程 其中我有一个带有连接的简单选择 例如 SELECT p legacyKey AS JobNumber p Name AS JobName G Label AS DesignStat
  • RANK() OVER PARTITION 并重置 RANK

    如何获得在分区更改时重新启动的 RANK 我有这张表 ID Date Value 1 2015 01 01 1 2 2015 01 02 1
  • 如何在 PostgreSQL 中使用条件和子查询创建唯一索引?

    我使用 PGSQL 并尝试添加下面的索引 CREATE UNIQUE INDEX fk client ON user client fk client WHERE fk client NOT IN SELECT fk client FROM
  • 创建日期范围表

    我正在编写一份需要显示每天值的报告 我有查询的开始日期和结束日期 但我希望避免丢失日期 以防表不包含特定日期的值 我正在考虑创建一个基本日期范围表 其中包含开始和结束之间的所有日期 然后将其与数据表左连接以显示每一天的值 我找到了一些适用于

随机推荐

  • SQL 常用&高级 教程

    用SELECT INTO 或INSERT INTO复制表结构 数据 MySQL 数据库不支持 SELECT INTO 语句 但支持 INSERT INTO SELECT MySQL可以使用以下语句来 1 拷贝表结构及数据 CREATE TA
  • 【学习笔记】R数据科学(R for Data Science)—第3章 使用dplyr进行数据转换

    dplyr包是tidyverse中的一个核心R包 dplyr的5个核心函数 按值筛选观测 filter 对行进行重新排序 arrange 按名称选取变量 select 使用现有变量的函数创建新变量 mutate 将多个值总结为一个摘要统计量
  • 设置文本阴影和溢出效果

    一 文本阴影效果 方法一 显示字体时 根据要求 为文字阴影添加颜色以增强网页的吸引力 这时就需要用到CSS3样式中的text shadow属性 text shadow 阴影水平偏移值 可正负 阴影垂直偏移值 可正负 阴影模糊值 阴影颜色 后
  • 为什么 i&1 可以判断奇偶

    记录一下看到过几次但是总会遗忘的知识点 是位运算 在计算机里是只认识二进制的 我们人类用的一般是十进制 而二进制有个特点就是每一位上要么是0要么是1 还有一个特点是如果哪个位置是1 那一位的值就是2n 这个符号表示次方 n就是这个1所处的位
  • 吴恩达机器学习python代码练习三(多类别分类)

    import numpy as np import pandas as pd import matplotlib pyplot as plt import scipy io as sio from scipy optimize import
  • 使用ddt实现unittest的参数化测试

    0 前言 本文介绍如何使用ddt库来完成unitest的参数化设置 ddt的github地址 ddt的官方文档 1 为什么需要参数化 我们在写单测中 需要考虑到各种场景 通过输入各种场景的值执行目的的方法 来判断输出是否是我们所期待的值 如
  • Android 中WebView的使用详解

    博主前些天发现了一个巨牛的人工智能学习网站 通俗易懂 风趣幽默 忍不住也分享一下给大家 点击跳转到网站 前言 通过WebView控件可以实现加载网页的效果 加载URL 网络或者本地assets文件夹下的html文件 加载html代码 Nat
  • 测开学习技能清单

    一 代码语言 打好语言基础 python java 底层语言主要掌握java 更高级的语法可以选择python去学习 领域预演 DSL shell SQL Docker shell 是指一种应用程序 这个应用程序提供了一个界面 用户通过这个
  • 在Lumia 950 XL上运行Windows 10 ARM64,是种什么体验?

    本文于2019年02月01日首发于IT之家 地址 点击这里 2019年1月 据IT之家报道 微软Lumia 950 XL刷Windows 10 ARM64项目取得了巨大进展 显卡驱动已经成功运行 随后 适用于Lumia 950 XL的WiF
  • MYSQL 数据存在 (多条件同时满足)则更新,不存在则添加

    需求 提交数据时 数据不存在则添加 数据存在则更新 此处判断数据是否存在需要满足2个条件 cid date 如果两者同时满足的情况下 才更新数据 否则添加数据 表结构 使用的方法是 on duplicate key update INSER
  • 蓝桥杯 全球变暖 bfs学习

    全球变暖 你有一张某海域NxN像素的照片 表示海洋 表示陆地 如下所示 其中 上下左右 四个方向上连在一起的一片陆地组成一座岛屿 例如上图就有2座岛屿 由于全球变暖导致了海面上升 科学家预测未来几十年 岛屿边缘一个像素的范围会被海水淹没 具
  • 芜湖今年小升初计算机考试,刚刚!芜湖幼升小、小升初网上报名时间定了!附报名流程和具体安排...

    就在今天 芜湖发布了 关于做好2021年芜湖市义务教育网上报名审核工作的通知 其中明确幼升小和小升初的网上报名时间 家长们赶紧来看看 这则重要通知还说了哪些关于报名的重要信息吧 公办义务教育学校网上报名工作安排 民办义务教育学校网上报名工作
  • 使用torch以及tensorflow训练一个最简单网络的基本步骤

    torch import torch import torch nn functional as F import matplotlib pyplot as plt x torch Tensor unsqueeze torch Tensor
  • 本地域名解析hosts

    本地域名解析hosts 一 这个系统文件就是HOSTS文件 二 Hosts文件的基本内容和语法 三 Hosts文件的工作方式 问题 127 0 0 1 activate adobe com 这句话是什么意思 一 这个系统文件就是HOSTS文
  • conda环境中配置cuda+cudnn+pytorch深度学习环境

    本文参考 在conda虚拟环境中配置cuda cudnn pytorch深度学习环境 新手必看 简单可行 conda安装cudnn 江江ahh的博客 CSDN博客 一 创建虚拟环境 conda create n mytorch python
  • Connect函数第五个参数的作用

    第五个参数多线程才有意义 连接方式 默认 队列 直接 默认时 如果是多线程 默认使用队列方式 如果是单线程 默认使用直接方式 队列 槽函数所在的线程和信号接受者一样 直接 槽函数和所在线程和发送者一样
  • 使用mybatis无法向数据库中插入数据且后台无任何错误

    最近自己再搭建springboot mybatis的简单框架 但是一个insert功能纠结了我很长时间 头疼 insert不进去 那么检查点肯定是以下几种 后台是否报错 是否有异常抛出 没有 完全正常 还能返回到正常页面 无奈 mapper
  • C++中cout,cin,endl

    VC中头文件为 include
  • 常用的像素操作算法:图像加法、像素混合、提取图像中的ROI

    图像可以是看成是一个多维的数组 读取一张图片 可以看成是读入了一系列的像素内容 这些像素内容 按照不同的模式具有不同的格式 对于三通道的 RGB 位图来说 每个像素是一个 8 bit 整数的三元组 图像的像素操作是比较基础的图像算法 下面列
  • DATAX 数据同步 My SQL->Hive

    DATAX 数据同步 My SQL gt Hive 安装 DATAX官方地址 https github com alibaba DataX DATAX WEB官方地址 https github com WeiYe Jing datax we