Spark 读取镶木地板文件时出现问题

2024-01-12

我有 2 个镶木地板零件文件part-00043-0bfd7e28-6469-4849-8692-e625c25485e2-c000.snappy.parquet（是 2017 年 11 月 14 日运行的部分文件）和part-00199-64714828-8a9e-4ae1-8735-c5102c0a834d-c000.snappy.parquet（是 2017 年 11 月 16 日运行的部分文件）并且两者具有相同的架构（我通过打印架构验证）。

我的问题是，如果我使用 Spark 分别读取这 2 个文件，那么我有 10 列，这些列会正常显示。但是，如果我将此文件放在文件夹中尝试一起读取，总计数将正确（两个文件的行数总和），但从第二个文件开始，大多数列都是空的。只有大约 2 3 列具有正确的值（值存在于文件中，因为如果我单独读取它，它会正确显示）。我在这里缺少什么？这是我用于测试的代码：

def initSparkConfig: SparkSession = {

    val sparkSession: SparkSession = SparkSession
      .builder()
      .appName("test")
      .master("local")
      .getOrCreate()

    sparkSession.sparkContext.hadoopConfiguration.set("mapreduce.fileoutputcommitter.algorithm.version", "2")
    sparkSession.sparkContext.getConf.set("spark.hadoop.parquet.enable.summary-metadata", "false")
    sparkSession.sparkContext.getConf.set("spark.sql.parquet.mergeSchema", "false")
    sparkSession.sparkContext.getConf.set("spark.sql.parquet.filterPushdown", "false")
    sparkSession.sparkContext.getConf.set("spark.sql.hive.metastorePartitionPruning", "true")

    sparkSession
  }

sparkSession = initSparkConfig
sparkSession.read.parquet("/test_spark/").createOrReplaceTempView("table")
sparkSession.sql("select * from table").show

更新：

如果我分别读取两个文件并进行联合并读取，则所有列都会被填充，没有任何问题。

更新2：

如果我做mergeSchema = true读取时抛出异常Found duplicate column(s) in the data schema and the partition schema: [即将为空的列的列表]。过滤器列之一为ambiguous

事实证明，模式不完全匹配。列名的大小写存在差异（中间有一些字符），该列名为空。而且镶木地板列名称区分大小写，因此这导致了所有问题。它试图读取根本不存在的专栏。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 读取镶木地板文件时出现问题的相关文章

在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
akka http配置中的idle-timeout和request timeout有什么区别？

我查阅了文档并发现了这些空闲连接自动关闭的时间设置infinite完全禁用空闲连接超时空闲超时 10 秒 Defines the default time period within which the application has
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
如何在 akka actor 中测试公共方法？

我有一个 akka 演员 class MyActor extends Actor def recieve def getCount id String Int do a lot of stuff proccess id do more st
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
如何在Scala中表达这个类型？存在类型类（即隐式）限制吗？

我正在使用 Play 框架的 JSON 库它使用类型类来实现Json toJson功能 http www playframework org documentation api 2 0 4 scala index html play ap
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
Scala 将递归有界类型参数（F 界）转换为类型成员

我将如何转换 trait Foo A lt Foo A 给类型成员也就是说我想要以下内容 trait Foo type A lt Foo type A 但我遇到了困难因为名称 A 已在类型细化中使用这个问题是类似的并衍生自通过类
如何使用 FS2 中的分类器函数对对象进行分组？

我有一个无序的流measurements 我想将其分组为固定大小的批次以便以后可以有效地保留它们 val measurements for id lt Seq foo bar baz value lt 1 to 5 yield id va
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
将当前类作为 scala 中的参数传递

如何传递当前类作为参数在java中我们这样做 mymethod this class or mymethod MyClass class 如何将 scala 当前类传递给此方法 this getClass or classOf MyCla
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如

随机推荐

将表单设置为父级抛出异常“顶级控件无法添加到控件”

我想从另一个表单访问一个表单的变量单击主窗体内的按钮时我想将主窗体设置为父窗体然后调出另一个窗体子窗体我将在其中访问主窗体的变量我的点击处理程序如下 private void btnSystem Click object sen
以时间间隔链接 UIView 动画

我需要对 3 个 UIView 进行动画处理淡入淡出 1个动画持续时间为0 6秒淡入淡出周期为0 6 0 6秒但我需要在 0 2 秒内启动动画第一个动画应在 0 0 秒内启动第二个动画应在 0 2 秒内启动第三个动画应在 0
SwiftUI 列表背景的默认颜色是什么？

我知道如何更改 SwiftUI 视图列表的背景颜色但我找不到默认颜色我尝试过使用 MacOS 的数字色度计但它无法正确识别颜色正如您在此图中看到的我尝试设置列表行的背景颜色使用 listRowBackground根据数字色度计
kubernetes go 客户端补丁示例

经过一番搜索后我无法找到使用任何策略在 Patch 上执行的 golang Kube 客户端示例我正在寻找执行此操作的 golang 示例 kubectl patch pod valid pod type json p op repla
使用wp_insert_post()创建一个新页面

我在 PHP 函数中有以下代码当我安装允许您创建帖子或页面的插件时该函数会被激活工作完美并制作页面如果 post type是 post 但如果 post type是页面那么它不起作用不会创建页面 my post array p
Pandas 重置系列索引以删除多重索引

我有一个看起来像这样的系列 1999 03 31 SOLD PRICE NaN 1999 06 30 SOLD PRICE NaN 1999 09 30 SOLD PRICE NaN 1999 12 31 SOLD PRICE 3 00 2
JavaFX 选项卡式窗格，每个选项卡上都有一个表格视图？

我有一个选项卡式窗格每个选项卡上都有一个表格我向表中添加了不同的项目我只希望每个选项卡向我显示该表的相应项目但什么也没有出现当我调试时我可以清楚地看到选项卡窗格其中包含选项卡包含表视图包含正确的项目为什么这不起作用 Th
如何为 android ndk 安装 libiconv？

有人可以教我或给我指点如何为 Android 安装 libiconv 的教程吗我已经用谷歌搜索了三天但找不到教程或操作方法获取 libiconv 源代码并创建 Android mk makefile 看着这个网站 http grou
Drools 中类型不安全的对象字段访问

我正在使用一个系统其中插入 Drools 引擎的一些数据遵循以下严重过度简化格式 public class Item public String getValueType public Object getValue 这些值可能有几种
R 快速 XML 解析

当前在 R 中将 XML 文件转换为数据帧的最快方法是什么 XML 如下所示注意并非所有行都包含所有字段
ValueError：名称投影仪的重复插件

Running tensorboard logdir log dir我收到错误 Traceback most recent call last File home user local bin tensorboard line 11 in
如何使用条形图缩放 Seaborn 的 y 轴

我在用着factorplot kind bar 如何缩放 y 轴例如使用对数刻度我尝试修改绘图的轴但这总是以某种方式弄乱条形图所以请先尝试您的解决方案以确保它确实有效考虑到你的问题提到barplot我想我也会为这种类型的情节添加一
异步 MVVM 命令

我一直在关注 Stephen Cleary 在 MSDN 杂志上发表的相当优秀的系列文章异步 MVVM 应用程序的模式 https msdn microsoft com en us magazine dn630647 aspx 并一直在使
pydicom“数据集”对象没有属性“TransferSyntaxUID”

我正在使用 pydicom 1 0 0a1 从下载here https github com pydicom pydicom 当我运行以下代码时 ds pydicom read file DR abnormal abc dcm force
一个季度的周数

我试图根据日期获取给定季度的周数我目前有这个公式 1 WEEKNUM EDATE Y4 1 WEEKNUM DATE YEAR EDATE Y4 1 LOOKUP MONTH EDATE Y4 1 1 4 7 10 1 But for J
没有名为 urllib3 的模块

我编写了一个调用 API 的脚本并于上周成功运行了它这周它不会运行我收到以下错误消息 Traceback most recent call last File user audit py line 2 in
对基于 REST 的 API 到底是什么感到困惑

我试图了解基于 REST 的 API 到底是什么据我了解这只是在 API 中编写函数的约定所有函数都应该是 GET POST DELETE PUT 形式吗因此例如 REST API 中的函数可以是 public string ge
将虚拟地址转换为物理地址

The following page table is for a system with 16 bit virtual and physical addresses and with 4 096 byte pages The refere
endUpdates 后 UITableView 部分页脚视图位置

在 ios8 上我使用核心数据表视图控制器删除行后我的部分页脚视图突然一直下降到底部UITableView 当我滚动表格视图时页脚视图返回到其位置如何解决这个问题以及为什么会发生这种情况这是代码以防万一 void control
Spark 读取镶木地板文件时出现问题

我有 2 个镶木地板零件文件part 00043 0bfd7e28 6469 4849 8692 e625c25485e2 c000 snappy parquet 是 2017 年 11 月 14 日运行的部分文件和part 00199

Spark 读取镶木地板文件时出现问题

Spark 读取镶木地板文件时出现问题 的相关文章

随机推荐

热门标签

Spark 读取镶木地板文件时出现问题的相关文章