第八章 综合案例——构建DVD租赁商店数据仓库①

2023-10-27

8.3.2 加载日期数据至日期维度表

1.打开Kettle工具,创建转换

使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线。        

2.配置"生成记录"控件

双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)、initial_date(初始化的日期),对生成的日期进行初始化。                                      

3.配置“增加序列”控件

双击“增加序列”控件,进入“增加序列”配置界面,并在“值的名称”处将valuename改为DaySequence,即增加一列日期字段,后续用于改变“生成记录”控件生成的日期。

4.配置“JavaScript”控件

双击“JavaScript”控件,进入“JavaScript”配置界面,勾选“兼容模式?”处的复选框,使得JavaScript代码控件的兼容性更强;在Java Script代码框中编写代码,单击“获取变量”按钮,将代码中定义的变量添加至字段框中,单击“确定”按钮,完成JavaScript控件配置。       

5.配置”表输出“控件

双击“表输出”控件,进入“表输出”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。

单击目标表右侧的【浏览】按钮,选择输出的目标表,即维度表dim_date;勾选“指定数据库字段”的复选框,用于将维度表字段与JavaScript控件流中的变量字段进行匹配,单击【输入字段映射】按钮,弹出“映射匹配”对话框,依次选中“源字段”选项框的字段和“目标字段”选项框的字段,再单击【Add】按钮,将一对映射字段添加至“映射”选项框中。单击映射匹配对话框的【确定】按钮,“表输出”界面最终显示的效果如图所示,单击【确定】按钮,完成“表输出”控件的配置。 

6.运行转换load_dim_date

单击转换工作区顶部的按钮,运行创建的转换load_dim_date,实现加载日期数据至日期维度表dim_date中。            

7.查看数据表dim_date中的数据

通过SQLyog工具,查看数据表dim_date是否已成功插入3650条日期数据,查看结果如下图所示。

                                                                          


8.3.3 加载时间数据至时间维度表

1.打开Kettle工具,创建转换

使用Kettle工具,创建一个转换load_dim_time,并添加生成记录控件、增加序列控件、JavaScript代码控件、记录关联(笛卡尔输出)控件、表输出控件以及Hop跳连接线。

                                                                             

2.配置“生成记录”控件

双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的时间,这里添加的是生成24小时数据,起始的时间为0;在“字段”框添加生成小时字段的相关信息。      

3.配置“增加序列”控件

双击“增加序列”控件,进入“增加序列”配置界面,将“值的名称”处将valuename改为hours24,即增加一列小时字段,由于时间是由时分秒构成,因此我们需要生成时分秒字段的数据,这里生成24小时数据,后续步骤中会生成60分和60秒的数据。

 4.配置“JavaScript”代码控件

双击“JavaScript代码”控件,进入“JavaScript代码”界面,勾选“兼容模式?”处的复选框,使得JavaScript代码控件的兼容性更强;在Java Script代码框中编写代码;单击【获取变量】按钮,将代码中定义的变量添加至字段框。                                                                        

5.配置“生成记录2”控件

双击“生成记录2”控件,进入“生成记录”界面,在“限制”后的文本框添加60表示生成60条数据(60分钟从0分开始至59分结束共60条数据);在“字段”框添加生成字段的名称、字段类型及默认值为0。                                                                              

6.配置“增加序列2”控件

双击“增加序列2”控件,进入“增加序列2”界面,将“值的名称”处将valuename改为minutes,即增加一列分钟字段,用于记录分钟数,在起始值后的文本框内将默认值1修改为0,表示从0开始生成60条数据(上一步“生成记录2”控件限制了条数),即生成数据为0-59。                                                            

7.配置“生成记录3”控件

双击“生成记录3”控件,进入“生成记录”界面,在“限制”后的文本框添加60,表示生成60条数据(即60秒钟从0秒开始至59秒结束共60条数据);在“字段”框添加生成字段的名称、字段类型及默认值为0。         

8.配置“增加序列3”控件

双击“增加序列3”控件,进入“增加序列3”界面,将“值的名称”处将valuename改为minutes,即增加一列秒字段,用于记录秒数,在起始值后的文本框内将默认值1修改为0,表示从0开始生成60条数据(上一步骤中“生成记录3”控件限制了条数),即生成数据为0-59,如图16所示。                                                                               

9.配置“JavaScript代码2”控件

双击“JavaScript代码2”控件,进入“JavaScript代码2”界面,勾选“兼容模式?”处的复选框,使得JavaScript代码2控件的兼容性更强;在Java Script代码框中编写代码;单击【获取变量】按钮,将代码中定义的变量添加至字段框。JavaScript代码2控件的配置。                                                                         

10.配置“表输出”控件

双击“表输出”控件,进入“表输出”界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。

 单击目标表右侧的【浏览】按钮,选择输出的目标表,即维度表dim_time;勾选“指定数据库字段”的复选框,用于将维度表dim_time的字段与JavaScript 控件流中的字段进行匹配,单击【输入字段映射】按钮,弹出“映射匹配”对话框,依次选中“源字段”选项框的字段和“目标字段”选项框的字段,再单击【Add】按钮,将一对映射字段添加至“映射”选项框中,若“源字段”选项框的字段和“目标字段”选项框的字段相同,则可以单击【猜一猜】按钮,让Kettle自动实现映射,单击映射匹配对话框的【确定】按钮,“表输出”界面最终显示的效果如图22所示,单击【确定】按钮,完成“表输出”控件的配置。具体如图所示。

                                                                    

11.运行load_dim_time转换并查看数据表dim_time中的数据

单击转换工作区顶部的按钮,运行创建的转换load_dim_date,实现加载时间数据至时间维度表dim_time中,通过SQLyog工具,查看数据表dim_time是否已成功插入86400条时间数据。                 


8.3.4 加载员工数据至员工维度表

1.使用Kettle工具,创建转换。

使用Kettle工具,创建一个转换load_dim_staff,并添加表输入控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线。                                                                            

2.配置表输入控件

双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮完,成MySQL数据库连接的配置。                                             

在SQL框中编写SQL语句,用于获取字段staff_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_staff_last_update

单击“预览”按钮,查看临时字段max_dim_staff_last_update是否将默认值设置为“1970-01-01 00:00:00”。

3.配置表输入2控件

双击“表输入2”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置。          

在SQL框中编写SQL语句,用于获取sakila数据库中staff数据表中的最新数据。           

4.配置字段选择控件

双击“字段选择”控件,进入“选择/改名值”界面,在“元数据”选项卡的“需要改变元数据的字段”处添加字段active,由于数据仓库sakila_dw中字段staff_active的数据类型为char类型,因此,我们需要将数据表staff中字段active的数据类型改为String类型                                                                    

5.配置值映射控件

双击“值映射”控件,进入“值映射”界面,在“使用的字段名”处的下拉框选择字段active;在“字段值”框中,添加源值和目标值,这里是将Y替换成Yes,将N替换成No。                                              

6.配置维度查询/更新控件

双击“维度查询/更新”控件,进入“维度查询/更新”界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮,完成MySQL数据库连接的配置。

单击目标表右侧的【浏览】按钮,选择输出的目标表,即维度表dim_staff;在“关键字”选项卡处添加关键字字段staff_id,用于指定维度表字段和值映射控件流中字段的比较条件,若维度表中的数据有更新,则通过字段staff_id进行更新操作;在“字段”选项卡处添加查询/更新字段,用于更新目标维度表中的字段数据;在“代理关键字段”处的下拉框中选择staff_key为代理关键字段,并指定“创建代理键”是使用自增字段;在“Version字段”处的下拉框中选择staff_version_number;在“Stream日期字段”处的下拉框中选择last_update;在“开始日期字段”处的下拉框中选择staff_valid_from;在“截止日期字段”处的下拉框中选择staff_valid_through,如图所示。

                                                                            

7.运行转换load_dim_staff并查看数据表dim_staff中的数据

单击转换工作区顶部的按钮,运行创建的转换load_dim_staff,实现加载员工数据至员工维度表dim_staff中,通过SQLyog工具,查看数据表dim_staff是否已成功插入员工数据,查看结果图下所示。

                                                                 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

第八章 综合案例——构建DVD租赁商店数据仓库① 的相关文章

  • 【计算机毕业设计】网上拍卖系统

    现代经济快节奏发展以及不断完善升级的信息化技术 让传统数据信息的管理升级为软件存储 归纳 集中处理数据信息的管理方式 本网上拍卖系统就是在这样的大环境下诞生 其可以帮助使用者在短时间内处理完毕庞大的数据信息 使用这种软件工具可以帮助管理人员
  • 38条Web测试经验分享

    1 页面链接检查 每一个链接是否都有对应的页面 并且页面之间切换正确 可以使用一些工具 如LinkBotPro File AIDCS HTML Link Validater Xenu等工具 LinkBotPro不支持中文 中文字符显示为乱码
  • 通俗易懂,十分钟读懂DES,详解DES加密算法原理,DES攻击手段以及3DES原理

    文章目录 1 什么是DES 2 DES的基本概念 3 DES的加密流程 4 DES算法步骤详解 4 1 初始置换 Initial Permutation IP置换 4 2 加密轮次 4 3 F轮函数 4 3 1 拓展R到48位 4 3 2
  • python超详细基础文件操作【建议收藏】

    文章目录 前言 发现宝藏 1 文件操作 1 1 文件打开与关闭 1 1 1 打开文件 1 1 2 关闭文件 1 2 访问模式及说明 2 文件读写 2 1 写数据 write 2 2 读数据 read 2 3 读数据 readlines 2
  • 基于java的学生宿舍管理系统设计与实现

    基于java的学生宿舍管理系统设计与实现 I 引言 A 研究背景和动机 基于Java的学生宿舍管理系统设计与实现的研究背景和动机 在数字化时代的推动下 学生宿舍管理系统已经成为了管理学生宿舍的重要工具 学生宿舍管理系统能够帮助管理者更好地管
  • 电商数据api接口商品评论接口接入代码演示案例

    电商数据API接口商品评论 接口接入入口 提高用户体验 通过获取用户对商品的评论 商家可以了解用户对商品的满意度和需求 从而优化商品和服务 提高用户体验 提升销售业绩 用户在购买商品前通常会查看其他用户的评论 以了解商品的实际效果和质量 商
  • 深入了解 Python MongoDB 查询:find 和 find_one 方法完全解析

    在 MongoDB 中 我们使用 find 和 find one 方法来在集合中查找数据 就像在MySQL数据库中使用 SELECT 语句来在表中查找数据一样 查找单个文档 要从MongoDB的集合中选择数据 我们可以使用 find one
  • 【计算机毕业设计】趵突泉景区的智慧导游小程序_5ztvv

    当今社会已经步入了科学技术进步和经济社会快速发展的新时期 国际信息和学术交流也不断加强 计算机技术对经济社会发展和人民生活改善的影响也日益突出 人类的生存和思考方式也产生了变化 传统趵突泉景区的智慧导游采取了人工的管理方法 但这种管理方法存
  • 面试官问,如何在十亿级别用户中检查用户名是否存在?

    面试官问 如何在十亿级别用户中检查用户名是否存在 前言 不知道大家有没有留意过 在使用一些app注册的时候 提示你用户名已经被占用了 需要更换一个 这是如何实现的呢 你可能想这不是很简单吗 去数据库里查一下有没有不就行了吗 那么假如用户数量
  • 使用 AWS Glue 时如何查找更新的行?

    我正在尝试使用 Glue 对从 RDS 迁移到 Redshift 的数据进行 ETL 据我所知 Glue 书签仅使用指定的主键查找新行 而不跟踪更新的行 然而 我正在处理的数据往往会频繁更新行 我正在寻找可能的解决方案 我对 pyspark
  • 如何在 SSIS 中设置 zip 文件的密码?

    我使用 SSIS 中的执行进程任务通过 7 zip 压缩了文件 现在我必须为 zip 文件设置密码 我该如何实现 我不认为这是一个 ssis 问题 你必须看看7zip 命令行用户指南 https sevenzip osdn jp chm c
  • OLE DB 目标:转换规范的字符值无效

    我的表来源 num facture TYPE actif date 1 1 1 2010 01 31 00 00 00 000 2 2 1 2011 01 31 00 00 00 000 3 3 2 2012 01 31 00 00 00
  • ErrorColumn 值不作为 Lineage ID 存在

    在插入目标表期间 发生的任何错误都会被重定向到错误表 我们可以在其中看到ErrorCode and ErrorColumn 问题是我们得到了一个值ErrorColumn它不存在于包中的任何地方 也就是说 没有一个列具有LineageID等于
  • 语法无效:使用初始排序键创建表排序键 auto

    我正在尝试使用target redshift将数据推送到aws redshift https pypi org project target redshift https pypi org project target redshift 我
  • 根据单元格位置将选择性字段从 Excel 批量插入到 SQL

    我有一个 SSIS 包 我必须从 Excel 工作表中选择一些值并将它们插入到 SQL Server 数据库表中 我是通过执行 sql 任务来完成的 这些是步骤 从映射表中选择所有记录 单元格位置是动态的 因此将其保留在 SQL 表中 大约
  • 在 SSIS 中使用 OLE DB 从 Sybase 提取数据时出错

    我在 SSIS 2017 中使用 Advantage 11 OLE DB Provider 从 Sybase 提取数据时遇到问题 我可以连接到数据库 查看表列表 并且在选择表作为数据源时 我可以看到列 但是 当我单击 预览 或运行数据流任务
  • 数据转换器 SSIS 数据流组件中相应列的转换数据类型应该是什么?

    我们的一台服务器上有普通的 Microsoft SQL Server 2008 我们决定在文件系统上创建 DTSX 文件 以便我们可以使用 BIDS 2008 打开 DTSX 文件 一种 SSIS 控制流组件 它从 Microsoft SQ
  • 如何在 ssis 包 2016 中捕获毫秒时间戳

    如何在 ssis 包 2016 中捕获当前时间戳 我声明了一个变量并使用表达式 但缺少毫秒 currenttimestamp DT WSTR 50 DT DBTIMESTAMP System StartTime 我也想要毫秒 Thanks
  • 删除或更改 ETL 中的记录

    我有一个表 我在上面构建了 ETL 服务 货物记录 到达 离开 进入表格 我已经这样做了 我的桌子将被删除 当项目标识符第二次到达数据库时 两条记录都被删除 label cost time x2 29 14 5 2020 01 00 00
  • 导入到 SQL Server 时忽略 Excel 文件中的列

    我有多个具有相同格式的 Excel 文件 我需要将它们导入 SQL Server 我当前遇到的问题是 有两个文本列我需要完全忽略 因为它们是自由文本 并且某些行的字符长度超出了服务器允许我导入的长度 这会导致截断错误 因为我的分析不需要这些

随机推荐

  • Ubuntu---pycharm卸载

    Ubuntu卸载pycharm 1 在 Linux 上卸载 snap 包 在商店中直接下载 专业版 sudo snap remove pycharm professional 社区版 sudo snap remove pycharm com
  • tomcat能作为网站的服务器不,tomcat的作用是什么_网站服务器运行维护,tomcat

    Linux 如何查看root密码 网站服务器运行维护 Linux不能查看root密码 因为root密码都是密文存储的 而密码设计的一个目标就是反推解密出来的可能性尽量小 如果需要修改密码 可以通过进入单用户模式下 将密码进行修改 修改完成后
  • SlideLive:提供小清新风格PPT模板下载

    简介 在学习和工作中 有时需要制作PPT 本文主要介绍如何从SlideLive平台下载小清新风格PPT模板 其中 SlideLive是一款PPT在线播放和分享的网站 该网站已收录大量的PPT模板 包括各种风格PPT模板和PPT图表 下载地址
  • 4款不错的UI设计软件推荐

    俗话说 如果工人想做好工作 他们必须首先磨利他们的工具 高质量的UI设计软件将使设计事半功倍 近年来 UI设计软件的逐渐多样化 让一些需要使用UI设计软件的小伙伴不知道如何选择 我整理了四款优秀的免费UI设计软件 别错过了 1 即时设计 即
  • 在子组件中使用Echarts图表无法刷新显示的问题(解决:子组件刷新)

    场景问题 在项目中 子组件中使用了Echarts的图表 图表的数据需要从父组件传入Id来进行查询 墒情仪与气象站相同的结构 当切换设备时 图表无法回显 父子组件传值正常 解决心路历程 1 我将两种设备传值的Id分开传递 处理无果 2 给子组
  • Linux下操作Docker(四):导入导出

    docker镜像的导出和导入 显示当前docker中的镜像 docker images 镜像列表如下 REPOSITORY TAG IMAGE ID CREATED SIZE pointsift latest 90b2ef439b40 2
  • java循环判断的使用

    程序的结构 一般来说程序的结构包含有下面三种 1 顺序结构 2 选择结构 3 循环结构 顺序结构 程序至上而下逐行执行 一条语句执行完之后继续执行下一条语句一直到程序的末尾 选择结构 是根据条件的成立与否 再决定要执行哪些语句的一种结构 循
  • 原生js实现简单智能关键词搜索功能

    现在很多网站都有智能搜索功能 它能根据用户的输入自动提示出需要补全的数据 方便用户的查询 下面我们用JavaScript来简单实现它 html部分 div div
  • STM32学习笔记3:KEIL5中使用ST-Link烧录调试STM32芯片的步骤

    一 开发板连接ST LINK ST LINK连接电脑 操作细节点击这里 二 配置debug选项 点击魔术棒 debug use 项选择 ST Link Debugger 再点击 Setting 这边会显示设备信息 如果显示没有设备 需要检查
  • 数字电路设计之OpenRISC(一)

    ARM PowerPC等商用IP核授权费价格较高 所以开源处理器越来越受到大家的关注 开源处理器比如OpenRISC NIOS II LEON2等 这里我会介绍OpenRISC的优点 一 指令集可扩展 二 添加专用的硬件协处理单元 一般来说
  • Kettle(一) 下载及环境部署

    1 kettle下载地址 kettle资源 https download csdn net download kingo0 87360222 JDK资源 LinuxJDK1 8安装包 jdk1 8安装包 Java文档类资源 CSDN下载 2
  • oracle 触发器 for each row 理解

    看到了触发器 中有个 for each row 不是很明白就查了查资料 因为只是简单研究 就先写总结一下 触发器的一般语法 CREATE OR REPLACE TIGGER 触发器名 触发时间 触发事件 ON 表名 FOR EACH ROW
  • AndroidStudio中Module创建及项目变Module导入其它项目步骤

    AndroidStudio中Module创建及项目变Module导入其它项目步骤记录 1 创建module 2 添加依赖 3 将已有项目变为module导入到其他项目中 将已有项目更改 将旧项目作为module导入 4 遇到的一些问题 总结
  • Ceres Solver安装及bug解决

    Ceres Solver安装与入门使用 安装教程 http www ceres solver org installation html 点击下载最新的稳定版 解压 编译 测试 安装 1 Linux系统下安装步骤 安装依赖 CMake su
  • 拯救pandas计划(19)——使用自定义方法计算两列的相似度

    拯救pandas计划 19 使用自定义方法计算两列的相似度 最近发现周围的很多小伙伴们都不太乐意使用pandas 转而投向其他的数据操作库 身为一个数据工作者 基本上是张口pandas 闭口pandas了 故而写下此系列以让更多的小伙伴们爱
  • GLES3.0中文API-glBeginQuery

    名称 glBeginQuery 划定查询对象的边界 C规格 void glBeginQuery GLenum target GLuint id void glEndQuery GLenum target 参数 glBeginQuery ta
  • react中“create-react-app”不是内部或者外部命令也不是可运行程序的解决办法

    换个命令创建项目 npm init react app my app 可创建 npm run start 启动
  • antd-design/pro-table组件说明(官方readme)

    ant design pro table Antd官网没找到Pro Table的相关说明文档 下面是从依赖包里捞出来的readme Demo codesandbox API pro table 在 antd 的 table 上进行了一层封装
  • 洛谷 贪心 部分背包 线段覆盖 排队接水 python

    P2240 深基12 例1 部分背包问题 数据结构选择 python没有结构体 选用二维数组 物品价值 重量 存储单个物品方便排序 根据贪心策略 首先计算性价比 然后按性价比由大到小排序 只要没有达到背包承载的重量 就装入 python n
  • 第八章 综合案例——构建DVD租赁商店数据仓库①

    8 3 2 加载日期数据至日期维度表 1 打开Kettle工具 创建转换 使用Kettle工具 创建一个转换load dim date 并添加生成记录控件 增加序列控件 JavaScript代码控件 表输出控件以及Hop跳连接线 2 配置