数据清洗分析导出遇到的一些问题

2023-10-30

本文简单记录一个学习过程，无技术含量，勿喷。

环境：

ambari:2.6.1

spark 2.1

python 3.6

oracle 11.2

sqoop 1.4

最近一直在测试数据采集、清洗、分析、导出、展示的一系列的工作，主要数据流程如下：

oracle 数据库-》hdfs-》hive-》oracle

总的设计：通过任务调度的方式执行各个阶段的任务，其中各个任务通过脚本的方式实现，扩展的时候只需要增加对应的脚本和调度任务就可以。

各个阶段的描述：

数据采集：主要是通过sqoop将oracle数据导入hdfs中。采集前，先列好采集清单和规则，以及采集后数据存放规则。

数据清洗：主要是通过pyspark将hdfs文件清洗拆分然后存放到HIVE数据库，通过将清洗后的数据移动到备份文件夹。

数据分析：通过pyspark读取数据清洗后的数据进行分析，将分析结果放到HIVE中。

数据导出：通过PYSPARK读取hive数据，然后通过python连接ORACLE数据进行插入。

数据展示：将分析后的数据通过web的方式提供展示。

数据导出按原设计是通过sqoop导出到oarcle，后面碰到一下问题就否决了。

1.数据只能全表导出，不支持增量和条件导出。

后想到的解决方案是：

1.数据分析的时候保存2份数据，一份是作为历史数据存储，一份是作为数据导出临时数据存储。导出的时候只导临时数据，导完删除。当然还有一些细节处理，比如如何解决多任务同时使用的问题。不做详细描写。

2.通过数据分析表记录分析数据的日期的日志，根据日志日期导出数据到oracle，导完后记录每个表导出的日期，下次导出时，只导出该表导出日志中最大日期之后的数据。

后来选择了第2种方案。原因个人喜好。

在第2中方案中，又出现一个选择，一个是通过spark sql直接保存数据到orcale，后发现一个问题，只能保存到oracle中不存在的表，比较怕麻烦，没有继续。

（本点后面发现，spark sql直接写oracle数据库的时候有个写入mode的设置，可以覆盖和追加：

durl = "jdbc:oracle:thin:@//127.0.0.1:1521/clearing"
tmptable.write.jdbc(durl, Tablename,mode="append", properties={"user": "username", "password": "password"})

原来尝试过

tmptable.write.mode("append").jdbc(durl, Tablename, properties={"user": "username", "password": "password"})

这样写数据库（oralce和mysql）mode不生效，但是写hdfs文件是生效的。

）

最终采用了通过spark sql读取hive数据，然后通过python将数据插入到oracle的方式，比较笨的方法，但是简单。

在这个过程中碰到的问题：

1.数据清洗出现空文件的时候，报RDD is empty的错误，导致任务失败。
原因：导入的文件夹下面存在一个空的文件，然后通过RDD.isEmpty的方法判断不生效，后改为rdd.count==0的判断。
2.清洗过程出现连接lntnn2/10.250.11.53:41574失败的警告，而且任务执行变慢

解决方案：查看namenode空间，发现只是2g空间，删除日志等文件，任务执行正常。

3.同时跑2个或以上任务的时候，容易出现以下警告：
javax.servlet.ServletException: Could not determine the proxy server for redirection
at org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter.findRedirectUrl(AmIpFilter.java:205)
at org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter.doFilter(AmIpFilter.java:145)
at org.spark_project.jetty.servlet.ServletHandler$CachedChain.doFilter(ServletHandler.java:1676)
at org.spark_project.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:581)
at org.spark_project.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1180)
at org.spark_project.jetty.servlet.ServletHandler.doScope(ServletHandler.java:511)
at org.spark_project.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1112)
at org.spark_project.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.spark_project.jetty.server.handler.gzip.GzipHandler.handle(GzipHandler.java:461)
at org.spark_project.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:213)
at org.spark_project.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:134)

解决方法：

暂时未有明确的解决方法，怀疑是机器性能不够，将每个mapradue的最大内存设为2g,效果不明。

4。通过python插入oracle数据库数据，
UnicodeEncodeError: 'ascii' codec can't encode characters in position 100-101: ordinal not in range(

解决方法：

根据数据库不同的编码设定，编写的python脚本中需要相对应的加入如下几句：

os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8' #或者os.environ['NLS_LANG'] = 'AMERICAN_AMERICA.AL32UTF8'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据清洗分析导出遇到的一些问题的相关文章

如何绘制日期和月份

我有一张随时间变化的每日趋势图表年份与此处无关我只想显示日期和月份我知道你可以显示年份和月份但事实并非如此我尝试创建一个名为 Day Month 的新变量 import datetime as dt df Day df date
Tensorflow GPU 设置：PyCharm 上的 CUDA 错误

我在 Python3 MacOSX El Capitan 上安装了 TF 0 8 当为 TF 运行简单的测试代码时我收到以下消息 ImportError dlopen Library Frameworks Python framework
是否可以在 python shebang 中包含命令行选项？

我的 python 脚本顶部有规范的 shebang usr bin env python 但是当我运行脚本时我仍然经常希望将未缓冲的输出导出到日志文件因此我最终调用 python u myscript py gt myscript
命令“python setup.py Egg_info”在 /tmp/pip-install-fs0wmmw4/mysqlclient/ 中失败，错误代码为 1

当我在 Ubuntu 16 04 中输入以下命令时 pip install mysqlclient 我收到以下错误 enter code here Collecting mysqlclient Downloading https files
如何按照文档规定的方式使用 python-daemon？

我正在尝试用 python 创建一个守护进程并且遇到了 python daemon 包有趣的是我见过的最常见的使用方式甚至不是文档 https www python org dev peps pep 3143 非常稀疏告诉你要做的
删除网格线，但保留框架（matplotlib 中的 ggplot2 样式）

使用 Matplotlib 我想删除图中的网格线同时保留框架即轴线我已经尝试过下面的代码和其他选项但我无法让它工作如何在删除网格线的同时保留框架我这样做是为了在 matplotlib 中重现 ggplot2 图我在下面创建了一
求 Petersen 子图中的哈密顿路径

我开始使用 IDE Jupyter Python 3 6 并出现了一个问题我必须通过IDE绘制Petersen子图中的哈密顿路径但我不知道该怎么做我显示有关该图的信息彼得森图 https en wikipedia org wiki
使用Python下载YouTube视频到某个目录

我已尝试使用以下代码在 YouTube 中下载视频并且它可以正常工作但我想将视频保存在特定位置现在它正在将视频保存在C Users Download 如果我想将视频保存在桌面上我需要对代码进行哪些更改 from future impo
从 MySQL 将数字数据加载到 python/pandas/numpy 数组的最快方法

我想从 MySQL 表中读取一些数字双精度即 float64 数据数据大小约为 200k 行 MATLAB 参考 tic feature accel off conn database c fetch exec conn select
Python 单元测试 Google Bigquery

我在对以下代码块进行单元测试时遇到问题 from google cloud import bigquery from google oauth2 import service account def run query query gcp
如何为python虚拟环境设置特定的python版本？ [复制]

这个问题在这里已经有答案了我是 python 的新手我正在尝试为我的项目添加一个新环境该环境在我当前的环境 Python 3 7 5 上运行良好添加所有依赖项后我遇到了 pyttsx3 包的问题用于 python 文本到语音进
带约束的简单线性回归

我开发了一种算法来循环 15 个变量并为每个变量生成一个简单的 OLS 然后算法再循环 11 次以产生相同的 15 个 OLS 回归但 X 变量的滞后每次增加 1 我选择具有最高 r 2 的自变量并使用 3 4 或 5 个变量的最佳滞后
清除pyqt中布局中的所有小部件

有没有办法清除删除布局中的所有小部件 self plot layout QtGui QGridLayout self plot layout setGeometry QtCore QRect 200 200 200 200 self r
Python 中 `if name == "__main__"` 是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复 name main gt 做什么 https stackoverflow com questions 419163 what does if name main do 我已经用 Python 编写脚本
Django：503 服务不可用

Related 我对 Python 及其框架完全陌生在学习了一些 Python 基础知识后我只是尝试一下 Django Problem 现在我正在尝试在第一次安装后运行 Django 服务器服务器运行没有任何错误但是当我尝试访问该网
在 selenium 下运行 chromedriver 日志时，如何减少其详细程度？

我的功能测试的詹金斯失败报告充满了这样的行 selenium webdriver remote remote connection DEBUG Finished Request selenium webdriver remote remot
如何查看授予其他用户的架构哪些权限

考虑这种情况在数据库中我有两个用户 A 和 B 及其相应的架构我想知道如何获取信息架构 B 中的用户 A 有哪些权限考虑这种情况我们有两个用户及其关联的场景我们有用户A和用户B 在A中假设我们有TB1 TB2 在B中假设
如何将焦点集中到 python Tkinter 文本小部件？

我希望能够打开应用程序 GUI 并让它自动将光标放置到特定的文本小部件中最好的情况是应用程序启动后有人就可以开始输入而无需单击文本小部件这只是显示问题的一个小示例 from Tkinter import root Tk Windo
如何在 Apache Airflow 中混合使用 Celery Executor 和 Kubernetes Executor？

我有多个使用 Celery Executor 的 dag 但我希望使用 Kubernetes Executor 运行一个特定的 dag 我无法推断出一种良好且可靠的方法来实现这一目标我有一个airflow cfg我在其中声明了Celery
访问 django for 循环中的元素

我有一个 Django 模板其中包含以下代码该模板创建多个按钮并尝试通过单击在同一按钮上删除隐藏其中一个按钮 for h in helicopters div class btn group div

随机推荐

查看mysql版本的六种方法

1 root localhost mysql V 2 root localhost mysql help grep Distrib 在mysql下有四种 3 登陆时会显示 4 mysql gt status 5 mysql gt selec
中阳：ChatGPT横空出世，或迎来“安卓时刻”

ChatGPT横空出世写代码写情书写文章做题它啥都会会被人工智能替代的行业由人工智能实验室OpenAI发布的对话式大型语言模型ChatGPT在各大中外媒体平台掀起了一阵狂热之风继 AI 绘画之后由 OpenAI 上线的 C
Reference vs Pointer

参考自Dan Saks的文章 An Introduction to References References and const The key insights I believe the key insight into why C
用git和idea推送本地项目到远程仓库

方式一 git命令方式 1 鼠标右键 Git Bash Here 2 初始化仓库 git init 3 配置签名 git config user name Zhang3 git config user email zhang3 163 co
WebFlux出现接口已返回成功，但查询时数据未改变的问题

问题描述在使用WebFlux时遇到一个很奇怪的问题先调用禁用账号接口接着在进行查询该数据结果页面显示数据未改变在点一次时页面数据才刷新即连续点两次查询接口才能看到修改后的数据相关代码前端 const disableAcco
商城登录后端

二登录 1 用户名和密码用户名和密码的格式验证可以不需要在后端进行在前端服务器判断就可以 2 图片验证码与验证 import string redis from captcha image import ImageCaptcha cl
Email Error - You have exceeded the storage limit on your mailbox

Description You may receive an error You have exceeded the storage limit on your mailbox Delete some items from your mai
前端--三种插件用来解析mardowm，转化成为html语法

前端三种插件用来解析mardowm 转化成为html语法使用方式十分简单快捷参考地址 1 markdown js 下载地址 https github com evilstreak markdown js div div
IBCS虚拟专线公网IP在公司内部搭建ERP系统按教程

企业资源计划 ERP 系统是现代企业不可或缺的组成部分可以将各个业务领域的信息整合到一个系统中以实现信息共享协调和协作然而随着企业规模的扩大企业的ERP系统也需要相应地进行升级和扩展因此使用IBCS虚拟专线公网IP在公司内部
五. Zuul 限流

目录一 spring cloud zuul ratelimit 基础解释二实现案例 1 pom 添加依赖 2 yml 配置 3 redis 配置类 4 自定义Zuul过滤器 5 自定义限流策略key 6 在当前Zuul服务中编写Con
string查找和替换

string查找和替换查找查找指定字符串是否存在替换在指定的位置替换字符串函数原型 int find const string str int pos 0 const 查找str第一次出现位置从pos开始查找 int find
python读取串口数据绘图_3.使用串口读取IMU数据并通过话题发布

0x00 简介我们的IMU扩展板是支持通过串口方式来读取IMU数据现在代码已经开发完成前面文章介绍的都是将IMU板插在树莓派上然后使用树莓派的IIC接口来数据通信因此不需要额外接线就可以发布imu话题的若使用串口进行通信的话若
在Linux下安装jdk的步骤

1 下载安装包 http www oracle com technetwork java javase downloads jdk8 downloads 2133151 html 版本 jdk 8u191 linux x64 tar gz
确实卷，公司新来的00后卷王，我们这帮老油条真干不过.....

都说00后躺平了但是有一说一该卷的还是卷这不前段时间我们公司来了个00后工作没两年跳槽到我们公司起薪18K 都快接近我了后来才知道人家是个卷王从早干到晚就差搬张床到工位睡觉了最近和他聊了一次天原来这位小老弟家里条件不太好
C#反编译工具：ILSpy

参考反编译软件ILSpy的使用教程 TONY5388的博客 CSDN博客 ilspy exe 总结以前以为dnspy是反编译的结果发现iLSpy是真的好用可以选择生成不同C 版本的源码
SQLite数据库总结

参考网址 https www cnblogs com stephen liu74 archive 2012 02 29 2328348 html 3种工作模式 1 SQLite完全内存数据库在SQLite中数据库通常是存储在磁盘文件中的
【python】KNN模型训练及应用01

目的应用让电脑代替人工对图片分类 1 数据加载 from sklearn datasets import load iris from sklearn model selection import train test split fro
今天终于知道了如果用layero获取layer弹窗中的子元素了

通过layer弹出的ifram 想要获取里面的元素并且绑定相应的事件以前一直不知道layero是什么意思可以通过下面的代码自己体会一下 layer open type 2 title 文件管理 shadeClose true shade
基于XStream的JavaBean与XML相互转换

相对于JAXB XStream更简洁一些常用注解 XStreamAlias 定义xml节点名 1 引入XStream依赖
数据清洗分析导出遇到的一些问题

本文简单记录一个学习过程无技术含量勿喷环境 ambari 2 6 1 spark 2 1 python 3 6 oracle 11 2 sqoop 1 4 最近一直在测试数据采集清洗分析导出展示的一系列的工作主要数据流程如下

数据清洗分析导出遇到的一些问题

数据清洗分析导出遇到的一些问题 的相关文章

随机推荐

热门标签

数据清洗分析导出遇到的一些问题的相关文章