第五章 数据清洗

2023-11-19

5.1数据去重
5.1.1完全去重
点击“获取字段”,配置csv文件输入的属性:Name,Gender,City
在这里插入图片描述
配置唯一行属性,选择要去重的属性:Name,Gender,City
在这里插入图片描述
运行结果,完全去重成功
在这里插入图片描述

5.1.2不完全去重
将文本分隔符替换为一个TAB,选择字段:Name,UserLevel,Phone,VisitTime
在这里插入图片描述
配置唯一行,选择要比较去重的字段:Name,UserLevel,Phone
在这里插入图片描述
运行结果:不完全去重成功
在这里插入图片描述

5.2缺失值处理
在这里插入图片描述

5.2.2去除缺失值
配置文本文件输入,获取字段:Name,Sex,Pay,Area
在这里插入图片描述
配置过滤记录组件,添加过滤条件
在这里插入图片描述
查看效果
在这里插入图片描述
运行成功
在这里插入图片描述
5.2.3填充缺失值
配置过滤记录控件
在这里插入图片描述
配置合并记录控件,选择匹配关键字:userid
在这里插入图片描述
将hours_per_week的null值替换为44
在这里插入图片描述
将字段workclass的null值替换为Private
在这里插入图片描述
配置字段选择控件,移除flagfield字段
在这里插入图片描述
查看结果:已经将null值填充完毕
在这里插入图片描述

5.3.3删除包含异常值的记录
读取文件出错
在这里插入图片描述
5.3.4修补异常值
将Height字段的null值替换为170
在这里插入图片描述
合并记录,选择匹配的关键字段:id
在这里插入图片描述
将Height字段的260设置为null
在这里插入图片描述
设置过滤记录条件:Height>=114 and Height<=226
在这里插入图片描述
配置表输入,写入SQL语句:SELECT * FROM interpolation_data
在这里插入图片描述

在这里插入图片描述
运行结果:数据表interpolation_data中的异常值已被替换
在这里插入图片描述

5.4.1数据一致性处理
配置表输入,写入SQL语句:SELECT * FROM personnel_information
在这里插入图片描述
配置值映射,使用GENDER字段,将Male和Female分别映射为0,1
在这里插入图片描述
配置插入/更新控件
在这里插入图片描述
运行结果
在这里插入图片描述
5.4.2数据规范化
配置制自定义常量数据控件,添加元数据:ProductionDate,ProductionName,ProductionNumber,CommoditySales
在这里插入图片描述
配置计算器控件,计算CommoditySales/ProductionNumber的值并命名为Unitprice
在这里插入图片描述
配置数据检验控件,添加date_verify,name_verify,price_verify检验
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
运行结果
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

第五章 数据清洗 的相关文章

  • Java Spring Batch 中的 ETL 与 Apache Spark 基准测试

    我使用 Apache Spark Scala 已有 5 年多了 学术和专业经验 我一直发现 Spark Scala 是构建任何类型的批处理或流式 ETL ELT 应用程序的强大组合之一 但最近 我的客户决定将 Java Spring Bat
  • 有没有办法从 Excel 特定单元格收集数据并发送给 SQL Server?

    我有一个 Excel 表格模板 希望用户每天填写 一张表告诉我哪些单元格正在读 写 意味着我想将哪些单元格发送到我的数据库 该形式不是管状的 即 有时数据被设置 A3 gt A4 或 A3 gt B3 我想知道是否有 Excel 插件或任何
  • 根据另一列过滤一列中的数据值,然后将值插入到同一个 SQL 表中的不同列中

    这是我试图使用 SSIS 和条件分割转换来解决的一个难题 我有一个 csv 文件 其中一行中包含每个唯一用户的属性数据 另一列中包含每个属性的值 IE Attribute Attribute Type ID 0000000001 Birth
  • 使用 Interop 从 Excel 获取最后一个非空列和行索引

    我正在尝试使用互操作库从 Excel 文件中删除所有多余的空白行和列 我关注了这个问题使用 Interop 从 Excel 文件中删除空行和空列的最快方法 https stackoverflow com questions 40574084
  • 集成服务目录文件夹权限已更改

    问 SSISDB 或 MSDB 中的任何 SQL Server 系统表是否包含可让我发现哪些用户正在对 Integration Services 目录中的文件夹权限进行更改的信息 背景 我发现 SQL 代理作业失败 错误描述如下 无法访问该
  • 导入具有可变标头的 Excel 文件

    我有 SSIS 包 它将把 excel 文件加载到数据库中 我创建了 Excel Source 任务来将 Excel 列名称映射到数据库表列名称 并且其工作正常 在极少数情况下 我们收到带有一些空格的 Excel 文件列名称 例如 列名称是
  • pyodbc 与 pypyodbc 相比有什么设计优势吗?

    I know pyodbc http code google com p pyodbc 是一个较旧的项目 可能功能更强大 更健壮 但是它的设计 基于编译的 C 代码的组件 是否有任何使其比纯 Python 实现更可取的地方 例如pypyod
  • 从高级编辑器更改数据类型与数据转换

    我正在使用 SSIS 创建一些包 我对周围感到困惑数据转换变换组件并从高级编辑器更改列数据类型 如果我可以进入高级编辑器并更改输出的数据类型 为什么我需要输入数据转换 这只是取决于偏好还是使用两种方法之间有区别吗 在展示两种方法之间的差异之
  • 使用 AWS Glue 时如何查找更新的行?

    我正在尝试使用 Glue 对从 RDS 迁移到 Redshift 的数据进行 ETL 据我所知 Glue 书签仅使用指定的主键查找新行 而不跟踪更新的行 然而 我正在处理的数据往往会频繁更新行 我正在寻找可能的解决方案 我对 pyspark
  • 将 SQLite3 数据库转换为 JSON iOS

    我已经在谷歌上搜索了一个教程来帮助解决这个问题 但还没有找到任何全面的内容 我想通过以 JSON 格式发送数据库中包含的数据来将 SQLite3 数据库与 Web 服务进行单向同步 但无法找到有关如何将数据库转换为 JSON 的信息 如果有
  • 如何使用我在后续任务中添加的记录的自动生成 ID?

    我目前正在使用以下命令向表中添加一些记录OLE DB Destination 每条记录都有一个自动生成的Id场地 我想使用这个生成的Id字段作为某些子记录中的外键 我以为我能够从一个数据流线OLE DB Destination组件到另一个组
  • SSIS 顺序处理

    我在同一数据流任务中有 5 个独立的数据流 每个数据流都有源和目的地 我怎样才能让它们按顺序运行 它们似乎并行运行 我可能会在不同的数据流任务中执行此操作 但我怎样才能在单个数据流任务中做到这一点 同一任务中不要有独立的数据流 我知道导入
  • 重命名文件源

    我一直在从平面文件源开发 SSIS 包 该文件每天都会出现 文件名具有日期时间指示 如下所示 文件名 20190509042908 txt 我想知道如何才能度过约会部分 我希望包动态读取文件 但它应该在没有最后 6 位数字的情况下通过 我只
  • 从 SSIS 中的 CSV 导入 yyyyMMdd 日期

    我有 12 列使用yyyymmdd格式 在里面数据流任务 我有一个平面文件源 a 派生列任务 and an OLE DB 目标 我将以下表达式应用于派生列任务 DT DBDATE SUBSTRING DT STR 10 1252 Date
  • 创建实时数据仓库

    我正在做一个个人项目 其中包括创建数据仓库 DWH 的完整架构 在本例中 作为 ETL 和 BI 分析工具 我决定使用 Pentaho 它具有许多功能 从允许轻松创建仪表板到完整的数据挖掘流程和 OLAP 多维数据集 我读过数据仓库必须是关
  • 将 XML 数据保存到 SQL Server 的最佳方法是什么?

    有没有一条非常直接的直接路线 即SQL Server可以读取XML 或者 最好解析 XML 并通过 ADO Net 以通常的方式将其作为单独的行或批量更新进行传输 我意识到可能有一些解决方案涉及大型复杂的存储过程 虽然我并不完全反对这一点
  • ETL 工具...它们到底做什么?请通俗地说[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我最近接触了一些 ETL 工具 例如 Talend 和 Apatar 我想知道这些工具通俗地说的用途 主要目标到底是什么 谁主要使用它
  • 在SSIS中导入已合并单元格的Excel

    我的问题是在读取合并 组合列单元格的 Excel 文件时 例如 将下面的excel数据读取到数据库中 Excel 输入 ID NAME DEPT FNAME LNAME 1 Akil Tiwari IT 2 Vinod Rathore IT
  • sqlite 插入表中 select * from

    我需要在 Android 应用程序中将数据从一个表移动到另一个表 我想使用以下sql insert into MYTABLE2 select id STATUS risposta DATETIME now data ins from MYT
  • 在 SSIS 中使用 OLE DB 从 Sybase 提取数据时出错

    我在 SSIS 2017 中使用 Advantage 11 OLE DB Provider 从 Sybase 提取数据时遇到问题 我可以连接到数据库 查看表列表 并且在选择表作为数据源时 我可以看到列 但是 当我单击 预览 或运行数据流任务

随机推荐

  • msvcp140.dll丢失的4种解决方法,快速修复msvcp140.dll文件

    msvcp140 dll丢失在所有的dll文件丢失里面 也算是经常丢失的老油条了 我们应该对它都不陌生吧 不过直到今天都还有人不知道怎么修复msvcp140 dll文件 小编觉得非常有必要来给大家详细的说说吧 聊一下msvcp140 dll
  • android获取缓存大小并清理缓存

    本文主要注重介绍实战操作 理论知识可能介绍的不多 勿喷 简单说两句缓存的好处 采用缓存 可以进一步大大缓解数据交互的压力 又能提供一定的离线浏览 下边我简略列举一下缓存管理的适用环境 1 提供网络服务的应用 2 数据更新不需要实时更新 哪怕
  • 数学建模的LINGO基础

    LINGO是Linear Interactive and General Optimizer的缩写 即 交互式的线性和通用优化求解器 由美国LINDO系统公司 Lindo System Inc 推出的 可以用于求解非线性规划 也可以用于一些
  • Operator ‘

    如何解决Operator cannot be applied to java lang String java lang String 或者Operator cannot be applied to java lang String jav
  • springboot集成eureka

    分为3个项目来讲解 注册中心 provider consumer 注册中心 注册中心pom xml添加
  • 什么是模式、什么是模式识别、模式识别的方法、过程

    什么是模式 pattern 模式是存在于时间和空间中可观察的物体 如果可以区分相同或者相似的物体类别 可区分的物体称之为模式 模式不是指具体的物体 而是抽象的类别 例如 人这个类别是一种模式 自行车这个类别是一种模式 什么是模式识别 1 模
  • 用Python爬取英雄联盟(lol)全部皮肤

    小三 怎么了小二 一副无精打采的样子 小二 唉 别提了 还不是最近又接触了一个叫英雄联盟的游戏 游戏中很多皮肤都需要花钱买 但是我钱不够呀 小三 咋得 钱攒够了你还要买呀 还吃不吃饭了 要我说 你干脆将英雄的炫彩皮肤都爬下来欣赏一下得了 饭
  • 预警:传统的QA岗位将被DevOps淘汰

    导读 在大多数机构或公司里 软件开发过程主要遵循一个或多个开发模型 例如瀑布模型或敏捷模型 在瀑布模型中 测试活动一般都在后期进行 软件开发完成后 缺陷被QA团队找出 然后再被修复 后两个活动不断循环和重复 指导管理者认为软件可以被公开发布
  • 在wsl中判断wsl的版本是wsl1还是wsl2

    判断wsl的版本 代码逻辑 通过判断 cat proc version 是否包含wsl等字符来判断wsl的版本 代码 bin bash Get the content of proc version proc version cat pro
  • chatgpt赋能python:如何用Python进行SEO优化

    如何用Python进行SEO优化 介绍 Search Engine Optimization SEO 即搜索引擎优化 是提高网站排名和流量的关键 Python作为一种强大的编程语言 可以帮助我们优化网站的SEO 在本文中 我们将探讨如何用P
  • 如何批量Ping 1000个IP地址,一个小技巧节约N小时?

    一 批量ping网段 对于一个网段ip地址众多 如果单个检测实在麻烦 那么我们可以直接批量ping网段检测 那个ip地址出了问题 一目了然 先看代码 直接在命令行窗口输入 for L D in 1 1 255 do ping 10 168
  • 定义类数组

    编写学生类 包含姓名 学号 成绩三个属性 题目要求 1 为学生类添加构造函数给每个成员属性赋值 使用this关键字 2 为学生添加toString 方法显示所有属性 3 在测试类中定义学生数组 长度为4 分别给数组每个元素赋值 然后循环调用
  • Vue自定义插件的编写

    如何实现一个vue的自定义插件 div div
  • windows 如何查询主板sn(主板ID)

    wmic bios get serialnumber
  • dell服务器维护软件,Dell服务器硬件,RAID等查询和维护软件OMSA_推荐

    Dell服务器硬件 RAID等查询和维护软件OMSA 推荐 原创 chenshengang2014 01 17 19 07 03 著作权 阅读数 441 著作权归作者所有 来自51CTO博客作者chenshengang的原创作品 如需转载
  • Java 读取resources下的资源文件

    Web项目中应该经常有这样的需求 在maven项目的resources目录下放一些文件 比如一些配置文件 资源文件等 文件的读取方式有好几种方式 本文会对常用的读取方式做一个总结 并说明一下应该注意的地方 准备工作 新建一个spring t
  • 无向图染色问题-dfs剪枝

    无向图染色问题 问题描述 给定一个无向图 要求用最少的颜色将节点染色 限制是不能让相邻节点染上相同的颜色 算法 使用dfs 为节点分配不同的颜色进行尝试 计算每种分配所需的颜色数 最终进行回溯 取得最小的颜色数 代码 C include
  • OpenAI最新发布通用人工智能路线图!AGI比想象中来得更快!

    点击下方卡片 关注 CVer 公众号 AI CV重磅干货 第一时间送达 点击进入 gt 计算机视觉 微信技术交流群 转载自 机器之心 编辑 泽南 小舟 通用人工智能的出现可能只是技术发展历程中的一个小节点 因为 AGI 或许可以加速自身的进
  • 点云/网格模型的体积计算

    点云体积计算 有时用激光扫描设备扫描零件或者用无人机进行测量后会想知道它们的体积 比如下面的土堆 如果扫描得到的数据是一系列三维点云 那么体积就比较难求 因为如何定义物体的边界比较困难 一种方法是提取三维点云的凸壳 包络体 然后再进行计算
  • 第五章 数据清洗

    5 1数据去重 5 1 1完全去重 点击 获取字段 配置csv文件输入的属性 Name Gender City 配置唯一行属性 选择要去重的属性 Name Gender City 运行结果 完全去重成功 5 1 2不完全去重 将文本分隔符替