Tableau Prep 数据处理工具使用入门

2023-11-12

1. 什么是Tableau Prep

    2018.04, Tableau 推出全新的数据准备产品——Tableau Prep。主要用户定位于如何帮助人们以快速可靠的方式对数据进行合并、组织和清理,进一步缩短从数据获取见解所需的时间。简而言之,Prep是一款简单易用的数据处理工具(部分ETL工作)。之所以使用Tableau Prep, 是因为我们在使用BI工具进行数据可视化展示时,常常数据不具有适合分析的形制(数据模型),很难应对复杂的数据准备工作。因此,我们需要一种更方便的工具来搭建我们需要的数据模型。

2. 下载Tableau Prep

    官方链接地址: https://www.tableau.com/products/prep。目前Prep提供30天的试用,现有的 Tableau Desktop 客户可在 2020 年之前免费使用 Tableau Prep。同时支持WIN及MAC系统。

    Desktop的key无法直接激活Prep, 根据官方介绍,需要进入tableau client portal,使用administrator账户登陆,即可以看到已经购买的Desktop key, 以及1个Prep的Key. 此Key可以激活与desktop key关联电脑上的prep.

3. 使用Tableau Prep

3.1 打开Prep

    如图,Prep保持了与Tableau Desktop一致的蓝色基调UI,默认英语,未支持多语言选择。界面分为3部分,左边第一部分进行数据链接,中间是最近使用过得操作流程及预设的展示操作流程(还是大家熟悉的超市数据),右侧是一些教学资源。

3.2 连接数据源

    通过点击左侧connection,可以看到目前Prep支持的数据文件及数据库。


    今天我们使用超市数据进行展示,和Desktop类似,只需要使用简单的托拉拽选择需要用到的表


3.3 数据处理

左上方出现的订单即为我们选择的表,点击右侧的加号,进行选择下一步操作。包括:添加步骤(Add step),添加聚合(Add aggregate,添加行列转换(Add pivot),添加关联(Add join),添加并集(Add union),添加输出(Add output)

3.3.1 添加步骤(Add step)


该步骤目的是进行数据清洗,可以根据自己的需求进行数据筛选,字段切割,字段重名,通过函数新建字段以及删除字段。

3.3.2 添加聚合(Add aggregate)

该步骤可以将数据按照需求进行聚合。例如超市数据中,我只需要看到不同产品在不同城市的销售情况,不考虑客户。我只需要选择城市、产品、销售额,Prep就会根据我们的需求将数据进行聚合。


3.3.3  添加关联(Add join)& 添加并集(Add union)

       关联包含了左连接,右连接即全连接,与桌面端基本一致,在这里不多做介绍。

3.3.4 添加输出(Add output)

        处理完毕的数据通过此步骤导出,导出的文件可以选择为Hyper(桌面端10.5以上的数据文件类型),TDE(10.5以下数据文件类型)及CSV。用户同样可以将数据上传至Tableau Server,便可以在使用桌面端时应用SERVER中的数据进行可视化操作。


4.总结

        如开头所言,Prep是一款简单易用的数据处理工具,它可以完成大部分ETL的工作。操作十分简单方便,目前测试下来处理速度和承载能力也足够支持大部分企业级的工作。并且弥补了Tableau桌面端在数据处理环节上的空白。


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Tableau Prep 数据处理工具使用入门 的相关文章

  • Pentaho Report Designer 教程(一)初识

    软件版本 Pentaho Report Designer 5 0 1 stable 一 Pentaho Report Designer 的安装 Pentaho Report Designer PRD 由Java编写所以在使用之前应该先安装J
  • python dict无需判断key存在即可追加写入

    使用dict setdefault 可设置一个默认值 如果key已存在 就不会有其他操作 借此我们可以不用在追加数据时判断key的存在 my dict 建立一个空字典 my dict setdefault key 设置默认键 print a
  • R数据处理——按符号分割数据&统计两列数据组合的频数

    初始数据格式 数据格式如图所示 每个Keywords里面都含有多个关键词 使用分号 间隔开 一共有ABCDEF六个group 并且关键词有重复 最终想要的数据格式 统计所有不重复的关键词在六个group中出现的频次 使用R来处理 rm li
  • 时序预测

    时序预测 MATLAB实现时间序列回归之似然检验 目录 时序预测 MATLAB实现时间序列回归之似然检验 基本介绍 程序设计 学习小结 参考资料 基本介绍 使用 CNLM 假设制定的 t 和 F 检验版本可以在创新分布偏离规范的各种情况下提
  • dataframe显示数据处理进度

    显示效果如下 tqdm搭配progress apply使用 from tqdm import tqdm tqdm pandas desc pandas bar df result df score progress apply lambda
  • 时序预测

    时序预测 MATLAB实现时间序列回归之评估模型残差及统计分布 目录 时序预测 MATLAB实现时间序列回归之评估模型残差及统计分布 基本介绍 程序设计 异方差性 统计分布 学习总结 参考资料 致谢 基本介绍 残差分析的基本目的是检查 CL
  • 成语大全数据提取

    成语大全数据提取 Python数据处理 数据获取 提取成语 1 成语数据 从网站上搜集和爬取成语数据 成语大全的数据主要以 二进制存放在txt文件中 目前搜集的成语一共有 31341 条 其中绝大部分是四字成语 也不少五 六字的成语 总体来
  • 【学习笔记】python实现excel数据处理

    概述 Excel固然功能强大 也有许多函数实现数据处理功能 但是Excel仍需大量人工操作 虽然能嵌入VB脚本宏 但也容易染上宏病毒 python作为解释性语言 在数据处理方面拥有强大的函数库以及第三方库 excel作为主要基础数据源之一
  • EISeg——应用于语义分割的自动标注软件

    1 基本介绍 EISeg Efficient Interactive Segmentation 是以RITM及EdgeFlow算法为基础 基于飞桨开发的一个高效智能的交互式分割标注软件 涵盖了通用 人像 遥感 医疗等不同方向的高质量交互式分
  • MATLAB医学DICOM影像读取与预处理

    来点有用的 MATLAB医学DICOM影像读取与预处理 一 DICOM文件的读取与解析 二 MR与CT像素处理 三 其他 by HPC ZY DICOM 是医学图像和相关信息的国际标准 常见类型有MR和CT 而它们在处理上有细微的不同 一
  • Siebel是什么意思

    简介 Siebel是电子商务软件的突出供应商 其客户关系管理 CRM 企业资源管理 ERM 以及合作关系管理 PRM 应用设计用于实现企业这些方面的自动化以及允许企业在互联网和零售或电话中心网络等其它渠道来执行和调节相关任务 Sieble的
  • Adaboost

    基本原理 基本原理就是将多个弱分类器结合 形成一个强分类器 Adaboost采用迭代的思想 每次迭代只训练一个弱分类器 训练好的弱分类器将参与下一次迭代的使用 也就是说 在第N次迭代中 一共就有N个弱分类器 其中N 1个是以前训练好的 其各
  • Python3,Pandas这4种高频使用的筛选数据的方法,不得不说,确实挺好。

    Pandas数据筛选方法 1 引言 2 4种高频使用数据筛选方法 2 1 布尔索引 2 2 isin 方法 2 3 query 方法 2 4 loc 方法 3 总结 1 引言 小屌丝 鱼哥 share一下 数据筛选的方法呗 小鱼 Excel
  • Power BI RANKX函数之计算列

    转载自 知乎 在实际做报表时 有时会遇到需要对某些指标 例如销售额等 进行排名 所以今天跟大家讨论一下可以实现排名的DAX函数 RANKX函数 首先看下RANKX函数的参数 RANKX table table
  • localStorage的过期时间设置的方法?——和派孔明

    我们都知道localStorage不主动删除 永远不会销毁 那么如何设置localStorage的过期时间呢 今天我们来一起尝试一下
  • 什么是BI分析系统

    BI分析系统是一种用于帮助企业进行数据分析和决策的工具 它通过收集 整理 分析和可视化庞大的数据集 帮助企业了解自身的业务状况 并提供有关未来预测和战略决策的有价值信息 BI分析系统以其强大的功能和灵活性 在企业管理和决策中发挥着重要的作用
  • 使用pandas groupby的一个案例

    mongodb中有下面一组数据 业务场景就不介绍了 看数据应该很好理解 id 606fdd0805f5710008a82223 brand id 1 brand name APPLE series id 11 series name iPh
  • 腾讯云微计算实践:从Serverless说起,谈谈边缘计算的未来

    欢迎大家前往云 社区 获取更多腾讯海量技术实践干货哦 作者 黄文俊 腾讯云高级产品经理 曾经历过企业级存储 企业级容器平台等产品的架构与开发 对容器 微服务 无服务器 DevOps等都有浓厚兴趣 由 腾讯云serverless团队 发布在
  • pandas列值根据字典批量替换

    更多 更及时内容欢迎留意微信公众号 小窗幽记机器学习 背景 DataFrame数据中一列的值需要根据某个字典批量映射为字典中的value 方法1 pandas中的df replace import pandas as pd import n
  • dataframe 使用拉格朗日插值填充缺失值

    本例中代码使用 jupyter 运行 问题场景 在处理dataframe时 可能会遇到少量数据缺失的情况 在连续缺失数据较少的情况可以考虑插值填充 本文调用了scipy库的lagrange x y 这个函数 参数x y分别是对应各个点的x值

随机推荐