kettle的下载安装以及问题点

2023-11-05

1、kettle下载以安装

1)kettle的官网下载地址:Pentaho from Hitachi Vantara - Browse Files at SourceForge.net

2)如果需要下载其他版本:

直接点击对应的版本Name(8.0以下的是在Data Integration文件夹里面)进去,再选择client-tools点击进去,最后选择pdi-ce-xxx.zip进行下载。

​ 

3)安装

不管是windows和linux环境下安装都是直接解压即可,再配置jdk环境。同步数据时,需要在lib加入对应的数据库驱动包


2、Kettle的注意点与问题点

【Kettle-201】${Internal.Entry.Current.Directory},该参数要求ktr文件和job文件必须放到同一目录下。

当然,可以给他加后缀设置不一样的路径,或者直接把对应文件的路径放进去

【Kettle-202】 输入和输出的字段格式不一致

以ElasticSearch为输入源,数据库为输出为例,es可能是驼峰命名字段,数据库可能是下划线命名。处理时可以在idea通过camelBar插件进行辅助转换。(快捷键:Alt+Shift+U 或者通过Edit-->camelBar)

【Kettle-203】hive相关问题,如果是同步到hive,默认情况下表输出是比较慢的,需要修改big-data-plugin插件源码。

异常原因:在kettle的big-data-plugin插件的源码中把批量提交的方法关闭了,所以其只能单挑插入,效率就非常低。

解决办法:

1)下载big-data-plugin插件源码(github上面直接搜索),选择与当前kettle版本对应的源码版本,如cdh510;
2)kettle官网下载kettle程序(暂且称为安装版);
3)在Idea上新建一个Java Project,把下载的插件源码解压,src下的文件拷贝到工程目录src下,工程中新建lib目录,把kettle安装版目录/lib下的kettle-core-版本号.jar、kettle-dbdialog-版本号.jar、kettle-engine-版本号.jar、kettle-ui-版本号.jar 四个jar包拷贝到工程lib目录并buildpath;
4)把工程src下除了org.pentaho.di.core.database 包之外的其他包都删除(这里只用hive2数据库连接,所以其他大数据插件就不要了,个人可以根据自身需求而定。);
5)修改Hive2DatabaseMeta类中的 public boolean supportsBatchUpdates()方法,把返回值由false改为true;
6)把工程达成jar包,名称参考安装版 plugins/pentaho-big-data-plugin/下的pentaho-big-data-plugin-版本号.jar的名字,然后替换安装版这个jar包为工程导出的jar包,重启kettle,DB连接的HadoopHive2连接的特征列表的supportsBatchUpdate已经是Y了,实际转换中的表输出速度也提高到几千条每秒。后台spark界面看提交的sql语句也变成batchinsert而不是之前的insert。

参考文章:https://download.csdn.net/download/weixin_43861380/11166617?utm_source=bbsseo

【Kettle-204】kettle连接不上hive

异常原因:如果使用kettle版本过高,hive版本过低,可能会导致连接不上hive。

解决方案:① 可以通过修改源码来解决。

② 也可以直接下载个低版本的kettle,修改plugin.properties配置文件(active.hadoop.configuration=),指定对应的CDH的版本(假设使用使用cdh)

data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations可以看到对应的大数据一些组件版本。

【Kettle-205】Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLIntegrityConstraintViolationException: Column 'id' cannot be null

异常原因:① 如果目标表有主键,过来的数据为空,也会报主键不能为空的问题。② 如果是通过REST client就可能是查询条件出问题。

解决方案:① 确保同步同步过来的数据不为空

② 检查查询语句是否有异常

Kettle-206】Caused by: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x9A\x80WZ...' for column

 异常原因:通常情况,Mysql数据编码格式为“utf-8”,对于汉字来说足够;Mysql中utf8占3个字节,但是,3个字节对于表情符号是不够的,需4个字节;此时使用utf8,会出现‘\xF0\x9F\x8D\x83\xF0\x9F’的问题。

utf8mb4编码是utf8编码的超集,兼容utf8,并且能存储4字节的表情字符。

解决方案:

① 设置kettle的数据库连接的配置(这种设置后可能连接不上数据库,数据库那边可能还要调整)

② 针对字段修改编码格式为utf8mb4(推荐使用)

ALTER TABLE table_name CHANGE field_name field_name VARCHAR(64) CHARACTER SET utf8mb4 ; 

③ 修改数据库表的编码格式,修改为utf8mb4;修改Mysql配置文件my.cnf(windows下为my.ini),然后重启数据库 。

[client]
default-character-set = utf8mb4
[mysql]
default-character-set = utf8mb4
[mysqld]
character-set-server = utf8mb4

参考文章:解决Mysql:Incorrect string value: '\xF0\x9F\x8D\x83\xF0\x9F...' for column_春风化作秋雨的博客-CSDN博客_incorrect string value:

Kettle-207】目标表新增字段,kettle同步的时候无法显示的问题 

异常原因:主要是kettle缓存问题导致的

解决方案:直接在最后的输出步骤里,点击下方的SQL进行缓存清理。


 3、kettle启动停止工具脚本

#!/bin/sh
# @date 2023-01-03
# kettle启动停止工具脚本

KJB_NAME=$2
## kettle的父路径
KETTLE_PATH='/opt/module/kettle/pdi-ce-8.2.0.0-342'

## 使用说明,用来提示输入参数
usage(){
    echo "Usage: sh 脚本名.sh [start|stop|restart|status|tail] [KJB_NAME]"
    exit 1
}

## 检查执行的文件是否存在
is_exist(){
    if [[ ! -e ${KETTLE_PATH}/jobs/${KJB_NAME}.kjb ]]; then
        echo "该${KJB_NAME}.kjb在${KETTLE_PATH}/jobs/下不存在!"
        exit 1
    fi
}

## 检查程序是否在运行
is_running(){
    pid=`ps -ef|grep ${KJB_NAME}.kjb|grep -v grep|awk '{print $2}'`
}

## 启动方法
start(){
    is_exist
    is_running
    echo "pid=${pid}"
    if [[ -z "${pid}" ]]; then
        nohup ${KETTLE_PATH}/data-integration/kitchen.sh -file=${KETTLE_PATH}/jobs/${KJB_NAME}.kjb >> ${KETTLE_PATH}/logs/${KJB_NAME}.log 2>&1 &
        echo "${KJB_NAME} start success!"
    else
        echo "${KJB_NAME} is already running."
    fi
}

## 关闭方法
stop(){
    is_running
    if [[ -z "${pid}" ]]; then
        echo "${KJB_NAME} is not running!"
    else
        echo "${KJB_NAME}, Trying to kill the pid=${pid}."
        kill -9 ${pid}
        echo "${KJB_NAME} stop success!"
    fi
}

## 重启方法
restart(){
     stop
     start
}

## 启动方法
status(){
    is_exist
    is_running
    echo "pid=${pid}"
    if [[ -z "${pid}" ]]; then
        nohup ${KETTLE_PATH}/data-integration/kitchen.sh -file=${KETTLE_PATH}/jobs/${KJB_NAME}.kjb >> ${KETTLE_PATH}/logs/${KJB_NAME}.log 2>&1 &
        echo "${KJB_NAME} start success!"
    else
        echo "${KJB_NAME} is already running."
    fi
}

if [[ $# -lt 2 ]]; then
	usage
fi

case $1 in
	"start")
		echo "=================== start kettle_kjb ==================="
		start
	;;
	"stop")
		echo "=================== stop kettle_kjb ==================="
		stop
	;;
	"restart")
		echo "=================== restart kettle_kjb ==================="
		restart
	;;
	"status")
		echo "=================== status kettle_kjb ==================="
		ps -ef|grep ${KJB_NAME}.kjb|grep -v grep
	;;
	"tail")
		echo "=================== tail kettle_kjb ==================="
		tail -60f ${KETTLE_PATH}/logs/${KJB_NAME}.log
	;;
	*)
		echo "Input Args Error..."
	;;
esac

参考文章:https://www.cnblogs.com/hls-code/p/16282329.html


 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

kettle的下载安装以及问题点 的相关文章

  • python连接hiveserver2_hiveserver2 python client

    一个hiveserver2 python客户端的例子 大部分代码来自于hue 忽略了一些必要的判断 只是做一个简单的例子 需要安装thrift以及把hive 0 10 0 cdh4 3 0 src service src gen thrif
  • python中通过super()调用父类构造方法

    可能是java写多了 当我准备通过super self xxx 这样调用父类的构造方法时候 一直报错 上网查资料 发现python的super 的机制和java还是有很大区别的 首先看一下super 函数的定义 super type obj

随机推荐

  • 对“端到端”原则的理解

    对 端到端 原则的理解 前些天读了两篇论文 一篇是J H Saltzer D P Read和D D Clark在80年代初发表的 The End TO End Arguments in System Design 另一篇是David D C
  • java为什么有些异常throw出去需要在函数头用throws声明,一些就不用。

    https www cnblogs com paul011 p 7850552 html
  • python可以嵌在vba中吗_在python-cod中嵌入VB宏

    要使用WinI的新模块32COM 我在网上找到了以下生成excel的代码 import win32com client as win32 class generate excel def excel self excel win32 gen
  • nginx 的进程建通信机制-共享内存/channel/信号

    nginx是跨平台的库 但以下分享均为基于linux的 nginx 进程间通信的方法 1 共享内存 linux 提供了进程间通信的的共享内存的方式 通过mmap和shmget来获取一块连续的内存 然后通过munmapheshmdt来释放这块
  • vue导出pdf

    vue项目中导出pdf 纯前端操作 有很多时候我们需要在项目中导出pdf文件 其实是利用插件将vue组件渲染成图片 然后将图片添加到PDF文档进行导出 本文用到的插件是html2canvas和jsPDF 文章目录 vue项目中导出pdf 纯
  • 力扣226. 翻转二叉树(递归)

    力扣226 翻转二叉树 递归 翻转一棵二叉树 示例 输入 4 2 7 1 3 6 9 输出 4 7 2 9 6 3 1 递归 1 定义函数功能 函数功能 即这个递归原问题是 给出一颗树 然后翻转它 所以 函数可以定义为 ListNode r
  • Python字典中的值为列表或字典的构造方法

    1 值为列表的构造方法 dic dic setdefault key append value 示例如下 gt gt dic setdefault a append 1 gt gt dic setdefault a append 2 gt
  • 关于点击UIButton弹出键盘,并且键盘的上方还需添加UITextField或者UITextView的解决方法

    最近在做一个项目的时候 有这样一个需求 点击UIButton弹出键盘 键盘的上方还需添加一个输入框 UITextField UITextView 开始的想法是直接设置输入框的 inputAccessoryView 设置后发现键盘根本就没显示
  • 视频中的物理要素——提取人们产生共情的元素

    近几年油管 各种小视频的兴起 似乎在为我们打开一扇门 研究角度来看 人们为什么对小视频如此痴迷 短暂的欲望得到满足 为什么通过视觉刺激 听觉刺激可以在观看吃播的时候 观看者也可以得到同样的对食物满足的情绪刺激 很重要的原因是 我们很需要很需
  • 格式化字符串学习

    常见的格式化字符串函数 输出 函数 基本介绍 printf 输出到 stdout fprintf 输出到指定 FILE 流 vprintf 根据参数列表格式化输出到 stdout vfprintf 根据参数列表格式化输出到指定 FILE 流
  • c++ auto类型用法总结

    一 用途 auto是c 程序设计语言的关键字 用于两种情况 1 声明变量时根据初始化表达式自动推断该变量的类型 2 声明函数时函数返回值的占位符 二 简要理解 auto可以在声明变量时根据变量初始值的类型自动为此变量选择匹配的类型 举例 对
  • 安装Zookeeper和Kafka集群

    安装Zookeeper和Kafka集群 本文介绍如何安装Zookeeper和Kafka集群 为了方便 介绍的是在一台服务器上的安装 实际应该安装在多台服务器上 但步骤是一样的 安装Zookeeper集群 下载安装包 从官网上下载安装包 cu
  • LDAP 入门知识

    LDAP的基本概念 LDAP是轻量目录访问协议 Lightweight Directory Access Protocol 的缩写 是一种基于 客户机 服务器模式的目录服务访问协议 其实是一话号码簿 LDAP是一种特殊的数据库 LDAP 目
  • jpa方法名命名规则

    一 常用规则速查 1 And 并且2 Or 或3 Is Equals 等于4 Between 两者之间5 LessThan 小于6 LessThanEqual 小于等于7 GreaterThan 大于8 GreaterThanEqual 大
  • Auto.js实现i茅台自动化申购

    i茅台自动化申购 文章目录 i茅台自动化申购 前言 一 前提条件 二 代码示例 总结 前言 现在茅台行情十分火热 茅台集团推出了i茅台APP供大家申购 下面介绍使用Auto js实现自动化申购 一 前提条件 需要下载Auto js的apk
  • 40.1自定义组建el-cascader

    1 子组件
  • 51单片机模拟救护车的警报声

    include
  • React Hooks --useEffect

    再用class写组件时 经常会用到生命周期函数 来处理一些额外的事情 副作用 和函数业务主逻辑关联不大 特定时间或事件中执行的动作 比如请求后端数据 修改Dom等 在React HookS中也需要类似的生命周期函数 useEffect由此诞
  • t检验与方差分析的区别和联系

    一 t检验和方差分析的应用 1 t检验的应用 t检验主要用于比较两组数据之间的均值是否存在显著差异 例如比较两种手术方式对患者的术后疼痛程度是否有显著差异 在医学研究中 t检验可以用于比较不同手术方式或药物对患者的疗效差异 例如 我们可以采
  • kettle的下载安装以及问题点

    1 kettle下载以安装 1 kettle的官网下载地址 Pentaho from Hitachi Vantara Browse Files at SourceForge net 2 如果需要下载其他版本 直接点击对应的版本Name 8