从 Spark 写入时避免丢失分区数据的数据类型

2024-03-24

我有一个如下所示的数据框。

itemName, itemCategory
Name1, C0
Name2, C1
Name3, C0

我想将此数据框保存为分区镶木地板文件：

df.write.mode("overwrite").partitionBy("itemCategory").parquet(path)

对于这个数据框，当我读回数据时，它将具有 String 的数据类型itemCategory.

然而有时，我有来自其他租户的数据框，如下所示。

itemName, itemCategory
Name1, 0
Name2, 1
Name3, 0

在这种情况下，在写入分区后，读回时，结果数据帧将具有 Int 的数据类型itemCategory.

Parquet 文件具有描述数据类型的元数据。如何指定分区的数据类型，以便将其读回为 String 而不是 Int？

如果将“spark.sql.sources.partitionColumnTypeInference.enabled”设置为“false”，spark 会将所有分区列推断为字符串。

在spark 2.0或更高版本中，你可以这样设置：

spark.conf.set("spark.sql.sources.partitionColumnTypeInference.enabled", "false")

在1.6中，像这样：

sqlContext.setConf("spark.sql.sources.partitionColumnTypeInference.enabled", "false")

缺点是每次读取数据时都必须执行此操作，但至少它有效。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

parquet

从 Spark 写入时避免丢失分区数据的数据类型的相关文章

TaskSchedulerImpl：初始作业尚未接受任何资源；

这就是我正在尝试做的事情我创建了DataStax企业集群的两个节点在其上创建了一个java程序来获取一张表 Cassandra数据库表的计数该程序是在 eclipse 中构建的实际上是来自 windows 盒子从 Windows
获取 Spark 中组的最后一个值

我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20
如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制]

这个问题在这里已经有答案了 Florian 的示例代码 ball column keep the hall column 0 7 14 1 8 15 2 9 16 3 10 17 4 11 18
如果为 null 则替换为 0，否则在同一列中使用默认值

在SparkR shell 1 5 0中创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
如何使用 Spark 执行插入覆盖？

我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据基本上创建一个临时表其中的数
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re

随机推荐

在特定时间删除Mongoose、Nodejs用户

我有一个问题如何在特定时间删除mongoose和nodejs用户实际上我希望用户在删除后 60 天内从数据库中删除我如何实现这一目标我添加了Momentjs之类的东西之后应该怎么做该代码应在用户进行删除操作 60 天后删除 s
Wrapper 找不到 servlet 类 Eclipse 停止为 Tomcat 生成类文件

我做了以下事情运行方式 gt 在服务器上运行它工作正常直到出现 JavaScript 错误不知道为什么并挂起屏幕所以我使用任务管理器杀死了 Eclipse 重复任务 1 不再生成运行 servlet 所需的类文件但出现以下异常
以简单的方式获取整数单位数字

我不确定我的英语但我需要获取整数的个位数没有复杂的算法但有一些 API 或其他技巧例如 int a 53 int b 76 我添加这一点是因为我几乎总是不符合质量标准来发布这让我发疯请修复它我花了 10 次拍摄才发布这个问
无法调整尺寸指令

我想知道为什么有些汇编指令可以推断但其他的则不能例如在以下程序中我有 globl main main push rbp mov rsp rbp mov 8 8 rbp mov 8 rbp rax pop rbp ret 我收到以下错误
如何在 scipy.optimize. Differential_evolution 中启用并行？

我试图使用 scipy optimize 中的 Differential evolution 找到函数的全局最小值正如 scipy 参考指南中所述我应该在选项中设置更新延迟 workers 核心数但是当我运行代码时它冻结并且不
更改 TabPageIndicator 页脚和文本颜色 (ViewPagerIndicator)

这让我发疯我一生都无法弄清楚如何更改 TabPageIndicator 来自 Jake Wharton 的 ViewPagerIndicator 的页脚和文本颜色我查看了示例 ViewPagerIndicator 应用程序的源代码但找
实体框架代码优先：与同一个表的一对多和多对多关系

我的项目中有一个用户模型和一个事件模型事件有创建者用户和参与者用户因此事件与用户具有一对多关系并且与同一个表也具有多对多关系我首先有这样的一对多关系 Public class Event public int CreatedB
takePicture 需要 CameraX 上的执行程序 (1.0.0-alpha06)

更新后从 androidx camera camera core 1 0 0 alpha03 to androidx camera camera core 1 0 0 alpha06 setTargetAspectRatio 在 Image
如何使用 ant 任务从 IBM Jazz 修订控制服务器下载文件？

我对 IBM Jazz 非常陌生我已经下载了 RTC BuildSystem Toolkit 其中包括 eclipse 插件和 ant 构建任务定义我的问题是如何从 Jazz 服务器下载获取文件我必须使用 teamFetch ant
DataContractSerializer 未序列化继承 ISerialized 的类的成员

我有这门课 using System using System Collections Generic using System Runtime Serialization namespace Grouping Serializable p
用于 google chrome 扩展的 Facebook JavaScript API

我制作了一个 chrome 扩展来自动喜欢特定的页面帖子用一个简单的弹出控制器和后台线程来处理fb api交互我无法使用官方示例方法将 facebook js api 加载到扩展页面中剧本jssdk https connect fac
删除字典中列表中的元素

在大字典中类似于 d d a 1 2 3 4 d b 1 2 3 4 5 6 d c 1 2
带有随机插入的 PostgreSQL 循环

我在数据库中有一个表 CREATE TABLE operation br id integer NOT NULL DEFAULT NEXTVAL seq operation br phone number varchar 30 br age
如何为 Android 应用程序创建导游

几个月前我给自己买了一台 HTC ONE X 我很欣赏他们通过交互式小部件和帮助功能引导用户在手机中迈出第一步的方式我想将这种功能添加到我们正在构建的应用程序 Rogerthat 中但我想知道是否有工具库可以帮助我实现这一目标 Ro
javac 的类路径和源路径选项之间的差异

我阅读了 Sun 文档和 Stack Overflow 上的很多帖子但我仍然对 Java 编译器选项之间的差异感到困惑 cp and sourcepath 假设我有这个目录结构 c Java project1 src where the
asp.net MVC 3中的简单Ajax，更新模型和重新渲染部分

我来自一个更WPF应用程序背景我习惯了绑定等然后进入网站可能会带来问题因为它们的工作方式有很大不同我正在尝试做一个简单的Ajax行动但不知道从哪里开始基本上我想制作一个下拉列表来更改模型上的一个属性并重新渲染页面的该部分也许这太
在 iOS 上使用 CommonCrypto 的 PBKDF2

我正在尝试使用CommonCrypto使用生成密钥PBKDF2但我似乎无法导入CommonCrypto CommonKeyDerivation h 我只是错误地认为没有找到有任何想法吗编辑我可能应该提到我已经添加了安全框架我可以导入
检测 TextEditor SwiftUI 的键盘“提交按钮”按下

在 SwiftUI 上TextField您可以使用以下命令为键盘的返回提交按钮设置操作 onSubmit 修饰符你如何实现同样的目标TextEditor onSubmit 似乎不起作用您可以使用 onchange 作为绑定变量Text
从 C# 连接和使用 sqlite 数据库的最佳方式是什么

我之前在 C 中通过包含 sqlite h 完成了此操作但是在 C 中是否有类似的简单方法我和布鲁斯在一起我在用http system data sqlite org http system data sqlite org 也取得了巨
从 Spark 写入时避免丢失分区数据的数据类型

我有一个如下所示的数据框 itemName itemCategory Name1 C0 Name2 C1 Name3 C0 我想将此数据框保存为分区镶木地板文件 df write mode overwrite partitionBy ite

从 Spark 写入时避免丢失分区数据的数据类型

从 Spark 写入时避免丢失分区数据的数据类型 的相关文章

随机推荐

热门标签

从 Spark 写入时避免丢失分区数据的数据类型的相关文章