如果文件已存在于 pyspark 中，如何覆盖 rdd saveAsPickleFile(path)？

2023-12-23

如何覆盖当我们节省时间时，RDD 输出对象任何现有路径。

test1:

975078|56691|2.000|20171001_926_570_1322
975078|42993|1.690|20171001_926_570_1322
975078|46462|2.000|20171001_926_570_1322
975078|87815|1.000|20171001_926_570_1322

rdd=sc.textFile('/home/administrator/work/test1').map( lambda x: x.split("|")[:4]).map( lambda r: Row( user_code = r[0],item_code = r[1],qty = float(r[2])))
rdd.coalesce(1).saveAsPickleFile("/home/administrator/work/foobar_seq1")

第一次可以正确保存。现在我再次从输入中删除了一行文件和保存RDD相同的位置，它表明文件已经存在。

rdd.coalesce(1).saveAsPickleFile("/home/administrator/work/foobar_seq1")

例如，在数据框中我们可以覆盖现有路径。

df.coalesce(1).write().overwrite().save(path)

如果我对 RDD 对象执行相同操作，则会出现错误。

rdd.coalesce(1).write().overwrite().saveAsPickleFile(path)

请帮我解决这个问题

您好，您可以像下面这样保存 RDD 文件Note（代码在 scala 中，但 python 的逻辑也应该相同）我正在使用 2.3.0 Spark 版本。

  val sconf = new SparkConf().set("spark.hadoop.validateOutputSpecs", "False").setMaster("local[*]").setAppName("test")
  val scontext = new SparkContext(sconf)
  val lines = scontext.textFile("s${filePath}", 1)
    println(lines.first)
    lines.saveAsTextFile("C:\\Users\\...\\Desktop\\sample2")

或者如果您使用 DataFrame 然后使用

DF.write.mode(SaveMode.Overwrite).parquet(path.parquet)

或了解更多信息，请查看

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

RDD

apachesparksql

如果文件已存在于 pyspark 中，如何覆盖 rdd saveAsPickleFile(path)？的相关文章

S3A：失败，而 S3：在 Spark EMR 中工作

我将 EMR 5 5 0 与 Spark 结合使用如果我使用一个简单的文件写入 s3s3 网址写得很好但如果我使用s3a 地址它失败了Service Amazon S3 Status Code 403 Error Code Acces
如何调试 Spark 工作线程上的映射函数中的错误？

我是 Spark 新手正在努力寻找自己的方法我有一个 Spark 应用程序它在dataset 此地图功能可能会因主要与数据相关的原因而失败我怎样才能获得一些关于问题所在的有意义的信息我不知道从哪里开始非常感谢如果您想编写单元测
在 Spark 中写入 JSON 时保留具有空值的键

我正在尝试使用 Spark 编写 JSON 文件有一些键有null作为价值这些在中显示得很好DataSet 但是当我写入文件时密钥会丢失我如何确保它们被保留写入文件的代码 ddp coalesce 20 write mode ov
使用 databricks 列出 Azure Blob 中的所有文件

我正在使用 pyspark python 脚本来列出 Azure blob 存储中的所有文件包括子目录我在 scala 中找到了一个用于此目的的脚本需要帮助将此脚本转换为 pyspark https learn microsoft c
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
Apache Spark 从 S3 读取异常：内容长度分隔消息正文过早结束（预期：2,250,236；收到：16,360）

我想从 S3 资源创建 Apache Spark DataFrame 我在 AWS 和 IBM S3 Clout 对象存储上尝试过都失败了 org apache spark util TaskCompletionListenerExcep
从 Spark 数据帧中过滤大量 ID

我有一个大型数据框其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行最直接的方
必须设置 Ignite 网格名称线程本地，或者应在 org.apache.ignite.thread.IgniteThread 下访问此方法

这个错误是什么意思我正在尝试从 Apache Spark 映射函数中检索 Ignite 缓存我在这里错过了什么吗最有可能的Ignite or IgniteCache实例被序列化并与函数一起发送到执行器你应该避免这种情况并获得Igni
Spark 上的 Kubernetes 驱动程序 pod 清理

我在 kubernetes 1 19 上运行 Spark 3 1 1 作业完成后执行程序 Pod 就会被清理但驱动程序 Pod 仍处于完成状态驱动程序完成后如何清理要设置任何配置选项吗 NAME READY STATUS RESTA
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
Spark Collect_list 并限制结果列表

我有以下格式的数据框 name merged key1 internalKey1 value1 key1 internalKey2 value2 key2 internalKey3 value3 我想做的是将数据框分组name 收集列表并l
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
如何从 Spark MLLib 中的 TF Vector RDD 获取单词详细信息？

我使用创建了术语频率HashingTF在斯帕克我已经使用术语频率tf transform对于每个单词但结果是以这种格式显示的
Spark - Scala - 用另一个数据帧中的查找值替换数据帧中的值

我正在 Databricks 上使用 Spark 编程语言是Scala 我有两个数据框主要数据框见截图 1 https i stack imgur com EShir png 查找数据框见截图3 https i stack imgur
Spark 2.1无法在CSV上写入Vector字段

当我将代码从 Spark 2 0 迁移到 2 1 时我偶然发现了与 Dataframe 保存相关的问题这是代码 import org apache spark sql types import org apache spark ml l
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
如何在Zeppelin笔记本和pyspark中导入Delta Lake模块？

我正在尝试在 Zeppelin 笔记本中使用 Delta Lake 和 pyspark 但似乎无法成功导入模块例如 pyspark from delta tables import 它失败并出现以下错误 ModuleNotFoundErr
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext

随机推荐

如何修复警告：初始化程序周围缺少大括号？

该警告是由vala 生成的c 代码产生的警告初始化程序周围缺少大括号该代码可以工作但警告很烦人警告引用的vala代码是 struct Position uint x uint y private static Position p
使用 jQuery FlexSlider 添加或删除幻灯片

是否可以在运行时添加或删除幻灯片弹性滑块 http flex madebymufffin com 新版本的弹性滑块2 https github com woothemes FlexSlider已经支持这种方法了 slider addSlid
如何让Service Worker离线工作？

我无法让我的 Service Worker 离线工作无论我使用什么教程我在我的 index html 文件中注册了服务工作者如下所示
如何在可扩展列表视图上插入标题行

我有一个带有一个可扩展列表视图的 Android 活动然后我创建了 ExpandableListAdapter 因此我可以单击一个项目然后可以看到该项目的子项目还行吧现在我想为每个项目的子列表插入标准标题标题所以我构建了这段代码
“返回的颜色将针对指定上下文的主题进行样式设置”是什么意思？

我最近注意到一个方法 Context getResources getColor int 自 API 23 起已弃用应该使用 ContextCompat getColor context R color your color 文档对此说道
如何使用重命名重构作为快速修复的一部分？

我在 DSL 中添加了一个快速修复选项我想在其中对文档文本进行一些修改包括重命名某些元素我可以很好地更改该元素中的文本但我还想重命名其所有引用即重命名重构我怎么做我可以以某种方式从快速修复内部触发内置的重命名重构吗或者如何
Gtk-消息：无法加载模块“canberra-gtk-module”

我的 pygtk 程序将此警告写入 stderr Gtk Message Failed to load module canberra gtk module 自由堪培拉 http 0pointer de lennart projects l
MKMapView 无法缩放地图

我创建了一个非常基本的应用程序仅显示 MKMapView 和 UserLocation 我有时在绘制这张底图时遇到问题它只显示地图的一部分每当我捏缩放地图时它都无法重新绘制而只显示空白的灰色图块每当需要获取新的地图图块时控制台
OpenCV 不报告准确的帧速率/计数

我有一个 33 秒的视频正在尝试使用 OpenCV 进行处理我的目标是确定每个帧对应的时间实例相对于视频的开始我这样做是为了能够比较以不同帧速率录制的同一场景的视频帧什么在起作用 FPS 正确报告为 59 75 这与什么是一致的f
Google Cloud Bigtable 客户端连接池

我通过制作一个虚拟 Web 应用程序来处理向 Bigtable 写入数据和从 Bigtable 读取数据的请求对 Google Cloud Bigtable 进行了负载测试一开始我只使用单个 Bigtable 连接作为单例并在所有线
Eclipse Web 项目依赖项

这个问题是关于 Eclipse 开发的我正在尝试在 Eclipse 中创建一个 Web 应用程序问题是我没有将依赖项 jar 获取到部署的存档中我创建了一个新的动态 Web 项目并将其链接到另一个 Java 项目 Java 项目引用了
在 Google App 脚本中共享日历

我正在尝试从电子表格构建日历然后与域内的适当人员共享它们我将其作为附加到电子表格的脚本来执行到目前为止我可以读取正确的单元格并构建包含事件的日历但我遇到的问题是弄清楚如何与正确的人共享特定的日历我四处搜索并找到了相同的通用代码来
尝试对“$(MSBuildVersion)”进行数字比较，结果为“”而不是数字，条件为“$(MSBuildVersion) >= 16.1.0”)”

当我尝试重新加载已卸载的项目时出现此错误如下图所示它说这条线来自我的Microsoft Managed Core targets 我尝试更新我的 NuGet 包我尝试将环境变量路径值更改为 msbuild exe 所在的位置我尝试
内层div的边距影响外层div

我有三个嵌套的 DIV 元素如下所示 div div div This br is br a br multiline br testcase br This br is br a br multiline br testcase br
减少可执行文件大小的过程

我正在生成一个在 ARM 处理器上运行的十六进制文件我希望将其保持在 32K 以下它目前比这个大得多我想知道是否有人可以提供一些关于缩小它的最佳方法的建议这是我到目前为止所做的因此我对其运行 size 以确定十六进制文件有多大
逗号附近的语法不正确

这是我尝试从会话中获取多个值时的 ASPX 代码片段我收到错误逗号附近的语法不正确在代码片段中标记了该行 SqlCommand cmd1 new SqlCommand select plugin id from profiles pl
根据 PEP257 自动检查文档字符串样式的工具[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案类似的工具pep8 http pypi python org pypi pep8可以检查源代码样式但他
Kotlin 的构造函数重载

因为我有一个User类有 2 个参数 first name last name 所以我的 kotlin 类是 data class User val first name String val last name String 现在我想要一
高频调用 std::async 可以吗？

我写了一个小程序使用std async对于并行性它让我崩溃了我很确定有更好的方法可以做到这一点但现在我只想知道这里发生了什么我不会发布确切的代码因为我认为它不会真正产生影响它基本上看起来像这样 while 1 std vect
如果文件已存在于 pyspark 中，如何覆盖 rdd saveAsPickleFile(path)？

如何覆盖当我们节省时间时 RDD 输出对象任何现有路径 test1 975078 56691 2 000 20171001 926 570 1322 975078 42993 1 690 20171001 926 570 1322 975

如果文件已存在于 pyspark 中，如何覆盖 rdd saveAsPickleFile(path)？

如果文件已存在于 pyspark 中，如何覆盖 rdd saveAsPickleFile(path)？ 的相关文章

随机推荐

热门标签

如果文件已存在于 pyspark 中，如何覆盖 rdd saveAsPickleFile(path)？的相关文章