从 hdfs 读取 ocr 文件后令人难以置信地触发数据帧

2024-03-07

我在 Ambari 上使用 Spark 2.1.1 和 hadoop 2.6 时遇到问题。我首先在本地计算机上测试了我的代码（单节点，本地文件），一切都按预期工作：

from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .master('yarn')\
    .appName('localTest')\
    .getOrCreate()

data = spark.read.format('orc').load('mydata/*.orc')
data.select('colname').na.drop().describe(['colname']).show()

+-------+------------------+
|summary| colname          |
+-------+------------------+
|  count|           1688264|
|   mean|17.963293650793652|
| stddev|5.9136724822401425|
|    min|               0.5|
|    max|              87.5|
+-------+------------------+

这些值是完全合理的。

现在，我将数据上传到 hadoop 集群（ambari 设置、yarn、11 个节点），并使用以下命令将其推送到 hdfs：hadoop fs -put /home/username/mydata /mydata

现在我测试了相同的代码，其结尾如下表：

from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .master('yarn')\
    .appName('localTest')\
    .getOrCreate()

data = spark.read.format('orc').load('hdfs:///mydata/*.orc')
data.select('colname').na.drop().describe(['colname']).show()

+-------+------------------+
|summary| colname          |
+-------+------------------+
|  count|           2246009|
|   mean|1525.5387403802445|
| stddev|16250.611372902456|
|    min|         -413050.0|
|    max|       1.6385821E7|
+-------+------------------+

但另一件事让我完全困惑 -> 如果我改变mydata/*.orc to mydata/any_single_file.orc and hdfs:///mydata/*.orc to hdfs:///mydata/any_single_file.orc两个表（集群、本地电脑）是相同的......

有谁对这种奇怪的行为了解更多吗？

多谢！

经过一周的搜索“解决方案”后，我发现在某些文件中，架构有点不同（或多或少有一列），虽然 parquet 中实现了架构合并，但 orc 目前不支持架构合并..https://issues.apache.org/jira/plugins/servlet/mobile#issue/SPARK-11412 https://issues.apache.org/jira/plugins/servlet/mobile#issue/SPARK-11412

所以我的解决方法是依次加载 orc 文件，然后我使用df.write.parquet()方法来转换它们。转换完成后。我可以在文件路径中使用 *.parquet 而不是 *.orc 将它们全部加载在一起。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 hdfs 读取 ocr 文件后令人难以置信地触发数据帧的相关文章

Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
idea sbt java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

我是spark的初学者我使用 linux idea sbt 构建了一个环境当我尝试快速启动Spark时我遇到了问题 Exception in thread main java lang NoClassDefFoundError org
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
如何从字符串列中提取数字？

我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在

随机推荐

Python Matplotlib 动画帧重叠

I am working on my orbit program and I have currently only animated the moon with a downward y velocity of 1023 The anim
实体框架 - 对象上下文的关闭

在使用 EFProfiler 顺便说一句绝对是很棒的工具对我们的一些实体框架应用程序进行分析后似乎在大多数情况下所有对象上下文都没有关闭例如在本地运行后 EF Profiler 告诉我有326对象上下文已打开但只有 1 个被关
Keras 自定义损失函数不打印张量值

我正在编写一个简单的损失函数其中我必须将张量转换为 numpy 数组这是必需的我只是想打印张量的值但收到此错误张量 loss activation 4 loss Print 0 shape 224 224 2 数据类型 float
如何通过 Mercurial 命令行获取所有关闭的分支？

在命令行中我可以通过以下方式获取没有闭合分支的所有头 hg heads 我还可以通过以下方式获取所有具有闭合分支的头 hg heads closed 但是我如何通过命令行知道所有关闭的分支 RTM hg help revsets hg
Node.js：客户端模板与服务器端模板

我已经尝试学习 Node js 几天了但有一件事情我很困惑 JQuery 模板等客户端模板解决方案与 Jade for Node js 等服务器端解决方案之间有什么区别各有什么用途它们用在哪里它们可以一起使用吗如果有的话有没有两
使用“IN”命令将数组作为参数传递给 SQL 查询

大家下午好我有一个关于 SQL 查询的问题是否可以使用数组作为使用 IN 命令的查询的参数例如 int x 2 3 4 5 UPDATE table name set field 数据 WHERE field ID IN x 我问这个
Auth.net 捕获问题

我在 auth net 上捕获交易的函数是 public function capture Varien Object payment amount if this gt isEnabled return parent capture pa
带地址的 R 地理编码

我有 32K 行地址我必须为其查找长纬度值我正在使用找到的代码here http www storybench org geocode csv addresses r 我非常感谢这个人创造了它但我有一个问题我想对其进行编辑以便如
pthread_create 的钩子

是否有在 glibc 2 5 及更新版本中为 pthread create 定义钩子的方法有很多二进制应用程序我想编写一个动态库通过 LD PRELOAD 加载我可以在 main 属性构造函数的入口处添加钩子但是如何强制我的代
如何在Stream上短路reduce？

假设我有一个布尔值流并且我正在编写的归约操作是或者我能否以一种方式编写它以便在以下情况下放弃至少某些元素的评估 true遇到的值是我正在寻找一定程度的优化也许如果它是并行流不一定是完全优化尽管后者会很棒我怀疑你想要这种类型
如何使新的 html 5 datalist 输入立即打开？

问题很难理解英语不是我的母语我会尽力而为所以新的html标签
在 SDL Tridion 2011 发布期间提出“警告”状态

我们希望实现一些功能以便当由于某种原因在发布或解决过程中发生错误时我们可以使用 try catch 块跳过它但仍然希望通知用户某些内容被跳过 SDL Tridion 2011 发布队列可以按状态进行过滤这些状态之一是警告是否可以
npmauditfix --force 改变了什么以及如何修复它？

我试图npm install apn save并使用npm audit fix force 希望你知道自己在做什么的信息让我意识到我不知道自己在做什么之后我原本得到 node home ec2 user myapp bin www sy
P4 - 为客户更改工作空间

我想使用 p4 命令行更改工作区客户端但我不知道是否可能您可以使用 p4workspace 命令创建删除或编辑工作区但我想使用 bat 方法更改当前工作区示例 p4 c MyClient 更改工作空间 myNewWorkspace
Ubuntu 14.04：升级到 php7 并卸载 php5？

我正在将基于 Ubuntu 14 04 的 docker 映像中的 php 版本升级到 7 0 我读了一些文章给出了在安装 php7 0 时卸载 php5 的命令这真的有必要吗优缺点都有什么添加 PHP 7 的新存储库 apt ge
在 Django 中，如何在组添加或删除用户时获取信号？

在 Django 管理中我有时会向现有组添加或删除用户当发生这种情况时我希望能够运行一个函数我只是使用标准的用户和组模型我已经考虑过通过 m2m changed 使用信号来完成此操作但似乎需要一个 Through 类我认为
gdfs 到图表，反之亦然

当我使用python的时候会发生以下情况osmnx如下 graph osmnx graph from polygon Data bbox gdf nodes gdf edges osmnx save load graph to gdfs g
lua：关于本地范围的模块导入

有两个脚本文件脚本如下 parent lua function scope local var abc require child end child lua print var 这样 child lua 将打印 nil 值因为 Par
Android：将位图从本地存储加载到应用程序小部件（RemoteViews）

到目前为止我一直在将位图加载到我的RemoteViews直接使用remoteViews setImageViewBitmap 总体来说运行良好但有几个用户遇到了问题我认为是在加载非常大的位图时出现的无论如何我已经将位图缓存到本地存
从 hdfs 读取 ocr 文件后令人难以置信地触发数据帧

我在 Ambari 上使用 Spark 2 1 1 和 hadoop 2 6 时遇到问题我首先在本地计算机上测试了我的代码单节点本地文件一切都按预期工作 from pyspark sql import SparkSession sp

从 hdfs 读取 ocr 文件后令人难以置信地触发数据帧

从 hdfs 读取 ocr 文件后令人难以置信地触发数据帧 的相关文章

随机推荐

热门标签

从 hdfs 读取 ocr 文件后令人难以置信地触发数据帧的相关文章