可空字段在写入 Spark Dataframe 时发生更改

2024-04-04

以下代码从 parquet 文件读取 Spark DataFrame 并写入另一个 parquet 文件。将 DataFrame 写入新的 Parquet 文件后，ArrayType 中的 Nullable 字段的 DataType 会发生更改。

Code:

    SparkConf sparkConf = new SparkConf();
    String master = "local[2]";
    sparkConf.setMaster(master);
    sparkConf.setAppName("Local Spark Test");
    JavaSparkContext sparkContext = new JavaSparkContext(new SparkContext(sparkConf));
    SQLContext sqc = new SQLContext(sparkContext);
    DataFrame dataFrame = sqc.read().parquet("src/test/resources/users.parquet");
    StructField[] fields = dataFrame.schema().fields();
    System.out.println(fields[2].dataType());
    dataFrame.write().mode(SaveMode.Overwrite).parquet("src/test/resources/users1.parquet");


    DataFrame dataFrame1 = sqc.read().parquet("src/test/resources/users1.parquet");
    StructField [] fields1 = dataFrame1.schema().fields();
    System.out.println(fields1[2].dataType());

Output:

ArrayType(IntegerType,false)
ArrayType(IntegerType,true)

Spark版本是：1.6.2

对于 Spark 2.4 或更早版本，从 Spark sql 写入的所有列都可以为空。引用官方指南 http://spark.apache.org/docs/2.4.0/sql-data-sources-parquet.html

Parquet 是一种列式格式，许多其他数据处理系统都支持该格式。 Spark SQL 支持读取和写入 Parquet 文件，自动保留原始数据的架构。写入 Parquet 文件时，出于兼容性原因，所有列都会自动转换为可为空。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DataFrame

apachespark

apachesparksql

可空字段在写入 Spark Dataframe 时发生更改的相关文章

如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
如何计算分类值（包括零出现）？

我想按月计算代码数量这是我的示例数据框 id month code 0 sally 0 s A 1 sally 0 s B 2 sally 0 s C 3 sally 0 s D 4 sally 0 s E 5 sally 0 s A 6
使用 dtypes read_csv 但列中没有值[重复]

这个问题在这里已经有答案了我使用以下代码来读取 csv 通过指定每个列的类型 clean pdf type pd read csv table updated csv usecols col names dtype col types 但
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
Pandas 按唯一列值拆分数据框[重复]

这个问题在这里已经有答案了我有一个数据框正在输出到名为所有数据的电子表格中假设此数据包含企业地址街道城市邮政编码州的列但是我还想为包含完全相同的列的每个唯一状态创建一个工作表我的基本想法是使用迭代每一行df iterr
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
使用已知模式保存空 DataFrame (Spark 2.2.1)

是否可以使用已知模式保存一个空的 DataFrame 以便将该模式写入文件即使它有 0 条记录 def example spark SparkSession path String schema StructType val datafr
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
如何使用文本相似性删除 pandas 数据框中相似（不重复）的行？

我有数千个数据这些数据可能相似也可能不相似使用 python 的默认函数 drop duplicates 并没有真正的帮助因为它们只检测相似的数据例如如果我的数据包含类似以下内容怎么办嗨早上好嗨早上好 Python 不会将
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
动态过滤 pandas 数据框

我正在尝试使用三列的阈值来过滤 pandas 数据框 import pandas as pd df pd DataFrame A 6 2 10 5 3 B 2 5 3 2 6 C 5 2 1 8 2 df df loc df A gt 0
使用 Python Pandas 获取多个值来制作表格

使用我的代码我可以将两个 Excel 数据库连接到 1 中问题是它只显示收入列而不显示列展示次数为了更清楚我留下了代码和示例我尝试过 df1 df1 pivot index Cliente columns Fecha value
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
按工作日对 pandas 数据框进行排序

如何按工作日名称对 DataFrame 进行排序我无法使用 pd to datetime 方法因为我的日期不是数字 Date Transactions 0 Friday 140 652174 1 Monday 114 000000 2
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15

随机推荐

Lambda 不支持 NLTK 文件大小

我正在编写一个 python 脚本来分析一段文本并以 JSON 格式返回数据我正在使用 NLTK 来分析数据基本上这是我的流程创建端点 API 网关 gt 调用我的 lambda 函数 gt 返回所需数据的 JSON 我编写了脚本
查找存储为 Ahnentafel 数组的二进制最大堆的最小元素

我有一个二进制最大堆顶部的最大元素我需要通过摆脱smallest每次我达到 20 个元素时二叉堆存储在一个数组中节点 i 的子节点为 2 i 和 2 i 1 i 从零开始在任何时候堆都有 n elements 个元素介于 0
向 MVC 路由添加冗余信息

当您遇到这个问题时您会注意到问题的标题位于地址栏中以及您单击到达此处的链接我不确定确切的术语因此很难搜索但我该如何做类似的事情也就是说如何将数据添加到纯粹用于显示搜索引擎的地址栏 Thanks 以 Stack Overflo
如何在 Ruby 中选择给定范围内的数组元素？

我有一个数组比方说有 500 个元素我知道我可以通过以下方式选择前 100 个 first 100 我的问题是如何选择 100 到 200 之间的元素您可以在数组下标中使用范围 arr 100 200
如何通过 mpi c++ 发送布尔数据类型？

我是 C 新手尝试通过 MPI 发送 bool 数据类型但 C 不支持此数据类型我试着做到了MPI BYTE and MPI INT但它什么也没打印 include
“volatile char *”类型的参数与“const char *”类型的参数不兼容

我有一个函数其原型如下 void foo const char data 在我的代码的其他地方我声明了一个全局变量如下所示 volatile char var 100 每当我尝试这样做时 foo var 编译器会抛出以下错误消息 vo
删除 numpy 数组中的屏蔽元素

我有一些包含屏蔽元素的数组来自Numpy MaskedArray e g data 0 1 masked 3 masked 5 面具不遵循常规模式的地方我想遍历数组并简单地删除所有被屏蔽的元素最终得到 data 0 1 3 5 我尝试
调试部署的azure应用程序

是否可以附加到已部署的 Azure 应用程序我希望能够单步执行代码以便可以查看在对我的 Web 角色操作之一的请求中设置了哪些值我环顾四周唯一的例子似乎是当天蓝色应用程序在本地计算机上运行时进行调试允许在云中使用 IntelliT
Objective-C 中整数的除法和四舍五入

我有 2 个整数如何将一个除以另一个然后再四舍五入如果你的整数是A and B你想要 ceil A B 只需计算 A B 1 B
Spyder中的runfile是什么意思

尝试在 WinPython Spyder 中使用 PyPDF2 时我无法解释错误消息错误信息在 3 中 runfile C Users User Downloads WPy64 3720 pdf2text py wdir C User
如何从access数据库中查询表结构？

我想用 C 获取 Access 数据库中所有表和 odbc 数据源的结构所以我尝试了这段代码 string text var tables GetApp CurrentData AllTables for int i 0 i lt tab
使用来自另一个 Pandas 数据框的信息填充 Pandas 数据框

我有一个 Pandas 数据框其中包含以下信息 index year month day symbol transaction nr shares 2011 01 10 2011 1 10 AAPL Buy 1500 2011 01 13
具有集群和自定义视图标记的 Google 地图在放大和缩小时滞后太多

我要加载GoogleMap用自定义视图代替GMSMarker并想展示聚类我已经做到了但我在放大或缩小地图时面临着滞后和内存使用情况我已加载自定义视图GMSMarker信息视图这是我的代码 class InitialMapViewCo
使用 3d 变换矩阵

在人工智能课程中我们有一个机器人它的手臂有 7 个关节每个关节可以向不同的方向旋转我需要知道最后的结局在哪里我一直在尝试进行 3d 矩阵乘法它适用于一个关节但一旦我添加另一个关节它就与我使用 Java3D api 制作的模型
有没有办法直接访问 CSS 网格中自动放置元素的实际网格坐标？

还有人问了类似的问题here https stackoverflow com questions 51327802 how to get the grid coordinates of an element using javascript
R 取子集后得到数据框的原始索引

子集化后是否可以获取数据框的原始索引它存储在某个地方但我不确定在哪里以及如何访问它我知道如果这是算法设计的一部分会有更好的解决方案我只是好奇是否有人知道是否可能示例场景 df data frame atr1 integer at
保留元素的排序列表，按该元素外部的属性排序

我有一个管理器类维护对象列表每个对象都有一定的位置但他们不知道这一点只有管理者知道这一点管理器必须为每个对象分配一个位置并维护根据此外部属性排序的对象列表请注意对象的位置可以随时更改理想情况下我应该能够立即获取位
在JavaScript中获取两个日期之间的年、月、日差异[重复]

这个问题在这里已经有答案了好吧我在这里发现了很多类似的问题试图获取两个日期之间的年月和日的差异但没有答案可以满足我的要求所以我写了一些东西来计算它似乎有效但也许这里的一些专家可以进行更正或帮助使这更简单您可以使用momen
Magento 高级配置文件导出 - 将 URL 添加到 IMAGE 路径

刚使用 Magento 几周就成功地使用了高级导出配置文件非常方便我想做的是将 url 值添加到输出列之一特别是图像 url 我想将 url 附加到路径输出的开头有人可以帮忙吗
可空字段在写入 Spark Dataframe 时发生更改

以下代码从 parquet 文件读取 Spark DataFrame 并写入另一个 parquet 文件将 DataFrame 写入新的 Parquet 文件后 ArrayType 中的 Nullable 字段的 DataType 会发生

可空字段在写入 Spark Dataframe 时发生更改

可空字段在写入 Spark Dataframe 时发生更改 的相关文章

随机推荐

热门标签

可空字段在写入 Spark Dataframe 时发生更改的相关文章