从工具了解大数据之Kettle

2023-11-08

最近沉迷Python爬虫学习,很有意思,即时刹车,坚持一步一学习,一步一整理
Kettle目前工作用于数据库搬运,例如Oracle定时搬运到mysql中间表,以便于加速查询

1.相关学习资料

【尚硅谷】大数据技术之Kettle视频教程
网盘资料下载:https://pan.baidu.com/s/1JxwmmPoeFc7HZuK-E5jzhg
提取码:g1jo

2.Kettle概述

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle 这个ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。

2.1 Kettle的两种设计

在这里插入图片描述

2.2 Kettle的核心组件

在这里插入图片描述

3 安装部署(参考视频)

4 Kettle调优

1、调整JVM大小进行性能优化,修改Kettle根目录下的Spoon脚本
在这里插入图片描述
参数参考:
-Xmx2048m:设置JVM最大可用内存为2048M。
-Xms1024m:设置JVM促使内存为1024m。此值可以设置与-Xmx相同,以避免每次垃圾回收完成后JVM重新分配内存。
-Xmn2g:设置年轻代大小为2G。整个JVM内存大小=年轻代大小 + 年老代大小 + 持久代大小。持久代一般固定大小为64m,所以增大年轻代后,将会减小年老代大小。此值对系统性能影响较大,Sun官方推荐配置为整个堆的3/8。
-Xss128k:设置每个线程的堆栈大小。JDK5.0以后每个线程堆栈大小为1M,以前每个线程堆栈大小为256K。更具应用的线程所需内存大小进行调整。在相同物理内存下,减小这个值能生成更多的线程。但是操作系统对一个进程内的线程数还是有限制的,不能无限生成,经验值在3000~5000左右。
2、 调整提交(Commit)记录数大小进行优化,Kettle默认Commit数量为:1000,可以根据数据量大小来设置Commitsize:1000~50000
3、尽量使用数据库连接池;
4、尽量提高批处理的commit size;
5、尽量使用缓存,缓存尽量大一些(主要是文本文件和数据流);
6、Kettle是Java做的,尽量用大一点的内存参数启动Kettle;
7、可以使用sql来做的一些操作尽量用sql;
Group , merge , stream lookup,split field这些操作都是比较慢的,想办法避免他们.,能用sql就用sql;
8、插入大量数据的时候尽量把索引删掉;
9、尽量避免使用update , delete操作,尤其是update,如果可以把update变成先delete, 后insert;
10、能使用truncate table的时候,就不要使用deleteall row这种类似sql合理的分区,如果删除操作是基于某一个分区的,就不要使用delete row这种方式(不管是deletesql还是delete步骤),直接把分区drop掉,再重新创建;
11、尽量缩小输入的数据集的大小(增量更新也是为了这个目的);
12、尽量使用数据库原生的方式装载文本文件(Oracle的sqlloader, mysql的bulk loader步骤)

5 Linux 部署调度任务注意点

一般情况在win上编辑好,直接放到Linux上定时调度
Linux设置kettle的任务启动

6 总结

1.ETL为大数据岗位常见工作内容,借助工具更简单。
2.大数据时则是大量工具运用,除此之外写sql加工数据。
3.kettle工具入门大数据既简单又容易了解日常工作,可接受度较高。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从工具了解大数据之Kettle 的相关文章

  • excel将数据按某一列值分组并绘制分组折线图

    目录 一 实现按id分组 二 绘制分组折线图 今天在处理数据的时候发现了一个很巧妙的EXCEL绘制分组折现图的方法 简单记录分享一下 我的数据大概长这样 我希望实现的目标是根据产品id分组绘制不同产品的销量图 一 实现按id分组 复制产品i

随机推荐

  • python3.5 实现批量修改json文件中的中文字段

    改了好久才改好 关键问题编码格式 要改成gbk coding gbk import os import json 获取目标文件夹的路径 filedir os getcwd updatejson 获取文件夹中的文件名称列表 filenames
  • Axure RP暗黑色高保真中后台原型组件模板库及组件库素材

    Axure RP暗黑色高保真中后台原型组件模板库及组件库素材 黑色一直以来就可以给人以高级 神秘的语义象征 相比于浅色模式 暗色模式藏着更多可能性 色彩具有层级关系 深色会在视觉感官上自动后退 浅色部分则会向前延展 这样对比强烈的层次关系可
  • 2023网络安全毕业设计选题推荐 - 信息安全毕业设计题目大全

    文章目录 0 简介 2 如何选题 1 最新网安毕设选题 3 最后 0 简介 毕业季马上就要开始了 不少同学询问学长管理选题开题类的问题 今天跟大家分享信息安全毕设选题 最新的信息安全 网络安全 专业毕设选题 难度适中 适合作为毕业设计 大家
  • redis 由浅入深之 简介和开发环境搭建

    简介 redis是一个key value 存储系统 和Memcached类似 它支持存储的value类型相对更多 包括string 字符串 list 链表 set 集合 zset sorted set 有序集合 和hash 哈希类型 这些
  • Centos7 安装Tesseract-OCR

    第一步 依赖安装 yum install y autoconf automake libtool libjpeg libpng libtiff zlib libjpeg devel libpng devel libtiff devel zl
  • 基于时间序列的回归问题(4)——时间序列预测的基本思路

    前言 大家好 这个系列之前以及写了几篇博客 都是对于时间序列回归预测的一些前期准备知识 相信很多人 包括笔者在内 第一次接触这种项目 可能大体的思路方案都不是很清楚 那么 这么博客将为大家梳理一下做基于时间序列数据回归预测问题的大体思路 1
  • 线性代数——矩阵的初等变换

    矩阵的初等变换 矩阵的初等变换分为初等行变换和初等列变换 初等变换矩阵与矩阵之间用箭头连接 不能用等号 初等行变换 交换两行 用k k 0 乘以某一行 某一行的1倍加到某一行上去 定理1 任何矩阵都可通过初等变换化为标准形 行变换和列变换都
  • eclipse实用配置

    在eclipse打开当前文件在本地电脑中所在的路径配置 Run gt External Tools gt External Tools Configurations new 一个 program location 里面填 C WINDOWS
  • 一文带你从零到一深入透析 @RefreshScope 结合 Nacos 动态刷新源码

    嗨 您好 我是 vnjohn 在互联网企业担任 Java 开发 CSDN 优质创作者 推荐专栏 Spring MySQL Nacos Java 后续其他专栏会持续优化更新迭代 文章所在专栏 Nacos 我当前正在学习微服务领域 云原生领域
  • 学生php实训个人总结300字,实训总结300字通用版5篇

    导语 实训目的要明确 在理论上验证定理 公式 算法 并使实验者获得深刻和系统的理解 在实践上 掌握使用实验设备的技能技巧和程序的调试方法 一般需说明是验证型实验还是设计型实验 是创新型实验还是综合型实验 无忧考网为大家整理的实训总结300字
  • 使用 AWK 去掉文本文档中的空白行

    在 Linux 操作系统中 可以使用 AWK 命令高效地处理文本文档 AWK 命令通过执行使用 AWK 语言编写的脚本程序 处理文本文档 AWK 脚本程序是由模式 patterns 与相关操作 corresponding actions 组
  • 基于空间平滑MUSIC算法的相干信号DOA估计(2)

    空间平滑MUSIC算法 2 继续上一篇博客 继续讲后向空间平滑和前 后向空间平滑MUSIC算法 基于空间平滑MUSIC算法的相干信号DOA估计 1 2 3 后向空间平滑算法 后向空间平滑更准确的说是共轭后向空间平滑 它是对后向子阵列地共轭接
  • mysql数据库用户管理和权限控制

    文章目录 1 用户管理 1 1 查询用户 1 2 创建用户 1 3 修改用户密码 1 4 删除用户 2 权限控制 2 1 查询用户权限 2 2 授予权限 2 3 取消权限 2 4 多个权限用逗号隔开 1 用户管理 1 1 查询用户 USE
  • 【转】在 Bash 中使用 -exec 选项和 find 命令搜索文件

    转自 https www delftstack com zh howto linux linux find exec 我们可以使用带有 exec 选项的 find 命令来查找包含我们要搜索的文本的文件 主要概念是使用 find 命令获取工作
  • 关于HTML页面跳转的5种方法分享。

    转自 微点阅读 https www weidianyuedu com 五个例子来详细说明 这几个例子的主要功能是 在5秒后 自动跳转到同目录下的hello html 根据自己需要自行修改 文件 1 html的实现 1 2 3 4 5 6
  • TCP的Ack和Seq和len的关系

    详细可以看 不抓包 如何学得了 TCP这篇文章 关系 发送数据包 数据的序号Seq和数据的长度Len 发送seq len 确认包 Ack 收到的数据包的序号Seq Len ack seq len 发送数据包的
  • 十大排序算法

    十大排序对比表格 中文名称 英文名称 平均时间复杂度 最坏时间复杂度 最好时间复杂度 空间复杂度 稳定性 选择排序 Selection O O O O 1 不稳定 冒泡排序 Bubble O O O O 1 稳定 插入排序 Insertio
  • selenium中隐藏元素如何定位

    1 什么是隐藏元素 前端通过一些属性来控制元素隐藏 type hidden style display none margin设为负值 z index控制元素堆叠顺序 2 定位隐藏元素 定位隐藏元素与定位普通元素没什么区别 from sel
  • ActiveMQ 反序列化漏洞(CVE-2015-5254)漏洞复现vulhub

    ActiveMQ 反序列化漏洞 CVE 2015 5254 Apache ActiveMQ是美国阿帕奇 Apache 软件基金会所研发的一套开源的消息中间件 它支持Java消息服务 集群 Spring Framework等 Apache A
  • 从工具了解大数据之Kettle

    最近沉迷Python爬虫学习 很有意思 即时刹车 坚持一步一学习 一步一整理 Kettle目前工作用于数据库搬运 例如Oracle定时搬运到mysql中间表 以便于加速查询 1 相关学习资料 尚硅谷 大数据技术之Kettle视频教程 网盘资