Spark Dataframe Write to CSV 在独立集群模式下创建 _temporary 目录文件

2024-03-29

我在跑步spark job在有 2 个工作节点的集群中！我使用下面的代码（spark java）将计算的数据帧作为 csv 保存到工作节点。

dataframe.write().option("header","false").mode(SaveMode.Overwrite).csv(outputDirPath);我试图了解 Spark 如何在每个工作节点上写入多个部分文件。

Run1) worker1 has part files and SUCCESS ; worker2 has _temporarty/task*/part*每个任务都有运行的部分文件。

Run2) worker1有零件文件，还有_temporary目录;worker2 has multiple part files

谁能帮助我理解为什么会出现这种行为？ 1）我应该考虑中的记录吗？outputDir/_temporary作为输出文件的一部分以及part files in outputDir?

2)Is _temporary作业运行后应该删除目录并移动part文件到outputDir?

3）为什么我不能直接在输出目录下创建零件文件？

coalesce(1) and repartition(1)不能是该选项，因为 outputDir 文件本身将在500GB

Spark 2.0.2. 2.1.3 and Java 8, no HDFS

经过分析，观察到我的 Spark 工作正在使用fileoutputcommitter version 1这是默认的。然后我添加了要使用的配置fileoutputcommitter version 2代替version 1并在 AWS 中的 10 节点 Spark 独立集群中进行了测试。全部part-* files直接在下面生成outputDirPath中指定的dataframe.write().option("header","false").mode(SaveMode.Overwrite).csv(outputDirPath)

我们可以设置属性

通过包含相同的内容--conf 'spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2' in spark-submit command
或使用sparkContext设置属性javaSparkContext.hadoopConifiguration().set("mapreduce.fileoutputcommitter.algorithm.version","2")

我了解失败情况下的后果，如火花文档 https://spark.apache.org/docs/latest/configuration.html，但我达到了预期的结果！

Spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version,默认值为1
这文件输出committer算法版本，有效算法版本 number：1或2。版本2可能有更好的性能，但版本1 在某些情况下可以更好地处理故障，根据 MAPREDUCE-4815。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark Dataframe Write to CSV 在独立集群模式下创建 _temporary 目录文件的相关文章

如何解决错误“AttributeError：‘SparkSession’对象没有属性‘序列化器’？

我正在使用 pyspark 数据框我有一些代码试图在其中转换dataframe to an rdd 但我收到以下错误 AttributeError SparkSession 对象没有属性序列化器可能是什么问题 training tes
CSV 字段中引号前的空格

从 CSV 规范 RFC 4180 https www rfc editor org rfc rfc4180 Spaces are considered part of a field and should not be ignored 显
当线程无法访问所有已用堆时查找 Java 内存泄漏

我正在研究基于 Java 的大型系统中潜在的内存泄漏或至少是内存浪费 JVM 运行时的最大堆大小为 5 GB 2 3GB 堆使用量是应用程序的预期基准可能会有更高的峰值在我正在调查的过载场景中堆被填满使用 Eclipse Memo
Java switch case 抛出 nullPointer 异常

我有一个枚举声明如下 public enum Status REQ URL1 NOT URL2 GET URL3 String getURL Status String getURL this getURL getURL 我班上的一个领域
包java.time不存在，jdk1.8

嗯我刚刚开始从事代号工作我对 Java 有相当不错的经验我的代码一切都很好没有任何问题但在编译时我得到了这个 error package java time does not exit import java time Local
WAR 文件在 Tomcat 服务器中抛出 OutOfMemoryError

我有一个 Spring MVC WAR 文件可以在我的本地计算机程序和网站中完美运行一旦我将文件上传到服务器 aTomcat 7 并尝试访问它 catalina 日志文件表明java lang OutOfMemoryError 我尝
如何将 Google proto 时间戳转换为 Java LocalDate？

我们需要将 Google Protobuf 时间戳转换为正常日期在这种情况下有没有办法将 Google Proto 缓冲区时间戳转换为 JavaLocalDate直接地 tl dr 作为 UTC 时刻转换为java time Inst
在word文档的标题中添加图片时出现问题

我正在Word文档的标题中添加图片它显示图像的框架并显示当前无法显示图像如果我将文本添加到标题它会显示文本如果我在文档正文中添加图像它也会显示图像获取图像也是如此它在标题上显示文本但没有图像我的支票快用完了有人可以建议
如何使用jsp上传服务器文件夹上的文件[重复]

这个问题在这里已经有答案了我正在尝试使用 servlet jsp 将一些图像上传到位于我的服务器上的文件夹中下面是我的代码它在我的本地计算机上运行 import java io import java util import java
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
为什么 JPA/hibernate 不能映射到 MySQL blob 类型？

我收到以下错误 Caused by org hibernate HibernateException Wrong column type in TestTable for column PAYLOAD Found blob expected
从文件执行db语句

我在我的应用程序中使用嵌入式 Apache derby 我有一个名为的 SQL 脚本创建的数据库 sql创建数据库中的所有表并用初始数据填充它例如 SET SCHEMA APP CREATE TABLE study study id bi
有人使用 Hibernate 使用 Elasticache 作为二级缓存吗？

我发现一些线程说这是可行的但没有找到具体的说明或配置信息我也想从 Beanstalk 执行此操作应用程序应该部署到 beanstalk 并使用将 hibernate 指向 elasticache 实例的配置是的我们能够使用二级缓存
Java如何处理IF语句和效率

我只是好奇 Java 实际是如何工作的if声明注意当我在下面说组件时我指的是语句检查的各个部分例如a b c 哪个在计算方面更有效 if a b c do stuff or if a if b if c do stuff 我之所
如何将 HTML 转换为保留换行符的文本

我如何将 HTML 转换为保留换行符的文本由 br p div 等元素生成可能使用NekoHTML http nekohtml sourceforge net 或任何足够好的 HTML 解析器 Example Hello br Worl
JToolBar 放回 GridBagLayout 时出现 IllegalArgumentException

为什么这段代码会抛出一个IllegalArgumentException当工具栏被拖离 GUI 然后关闭将其返回到 GUI 时我可以理解为什么在没有约束的情况下添加组件可能是不合适的但在这种情况下工具栏最初添加到面板使用GridB
GWT 和身份验证

保护 GWT Tomcat 应用程序执行身份验证和授权的最佳策略是什么有两种基本策略确保入口点安全确保远程服务的安全确保入口点安全最简单的方法是使用常规 Web 应用程序安全工具限制对 GWT 生成的 html js 文件的访问
使用 Java 8 时间将时间从一个时区转换为另一时区

我正在尝试将日期转换为GMT 5 30 to EST与java 8ZonedDateTime String inputDate 2015 04 30 13 00 DateTimeFormatter sourceFormatter DateT
使用“容器ip”连接到docker容器

我在 mac 上运行 docker 我想使用 docker 容器的 ip 不是虚拟机的 ip 连接到它原因是 Spark 驱动程序将自身注册到容器 IP 172 17 0 2 并且从 mac 运行的客户端尝试连接到该地址有没有办法从 m
MIME 类型/内容类型，用于在 IE 和 Firefox 中使用 Excel 打开 CSV 文件

我在 Excel 中识别并打开 CSV 输出时遇到问题在我的 Web 应用程序中我有一个 java servlet 它将搜索结果返回给用户搜索结果由 Apache Solr 服务器提供 GUI 前端有一个选项允许用户请求 CSV 格

随机推荐

UISplitViewController 仅详细信息 inputAccessoryView

我试图在消息输入工具栏方面模仿Apple的iMessage应用程序苹果有一个UIToolbar这是一个的输入附件视图UITextView它包含而且还inputAccessoryView的实际视图这样工具栏始终存在并且当键盘出现时
如何在 Java 中迭代目录及其子目录中的文件？

我需要获取目录中所有文件的列表包括所有子目录中的文件使用 Java 完成目录迭代的标准方法是什么您可以使用File isDirectory https docs oracle com en java javase 21 docs ap
Cocoapod错误，尝试在M1上安装所有可能的方式

我收到这个错误 Downloading template Copying template Processing template Installing CocoaPods dependencies this may take a few
UITextView 在第一次单击时不显示 InputAccessoryView

我用UITextViewDelegate并添加一个InputAccessoryView in textViewDidBeginEditing textView setInputAccessoryView doneBar doneBar 不为
导出产品的 csv 文件时出现“无效实体模型”错误

while 导出产品 csv 文件从后端 magento 管理面板当我单击继续生成 csv 文件时它会提示我以下错误无效的实体模型我正在使用 magento 1 6 2 CE 已编辑我使用magento默认导出导入服务意味着从管
将 ThreadLocal 传播到从 ExecutorService 获取的新线程

我正在一个单独的线程中运行一个带有超时的进程使用 ExecutorService 和 Future 示例代码here https stackoverflow com questions 1164301 how do i call some
如何将事件处理程序与 Link Clicked 事件连接

我正在使用 winforms 我试图在富文本框中创建一个可点击的链接并能够在浏览器中启动我想知道如何将事件处理程序与 LinkClicked 事件连接起来 private void Link Clicked object sender
如何在 Ubuntu 中安装 libwebsocket 库？

我正在尝试在我的 ubuntu 中安装 libwebsocket 所以我下载了该项目https github com warmcat libwebsockets https github com warmcat libwebsockets解
更新时出现 helm 错误：UPGRADE FAILED: The order in patch list

我在 helm 部署方面遇到问题这是在我向部署添加新的环境变量后发生的当我执行时 helm upgrade RELEASE CHART 我收到以下错误 Error The order in patch list map name APP
用于匹配文件中的十六进制数字的 Java 正则表达式

所以我正在读取一个文件例如java程序 58 68 58 68 40 c 40 48 FA 如果我幸运的话但更常见的是它在每行之前和之后都有几个空白字符这些是我正在解析的十六进制地址我基本上需要确保我可以使用扫描仪缓冲阅读器等来
如何在 Intellij IDEA 中使用本机库制作 jar？

如何在 Intellij IDEA 中使用本机库制作 jar 在 JVM 中它看起来像 Djava library path C Users User workspace lib native win None
如何安装 ionic 2 的 Leaflet 插件

任何人都可以帮忙吗我正在尝试导入传单插件 https github com Leaflet Leaflet markercluster https github com Leaflet Leaflet markercluster 对于离子
为什么GO中slice的内容没有改变？

我认为在GO语言中切片是通过引用传递的但为什么下面的代码没有改变切片c的内容呢我错过了什么吗谢谢 package main import fmt func call c int c append c 1 fmt Println c
.net 计时器有多可靠？

我正在考虑在 Windows 服务中使用 System Timers Timer 我想知道它们的可靠性和准确性如何尤其对于它们的运行频率有任何保证吗当处理器或内存过载时会发生什么在这种情况下 ElapsedEventArgs Sig
Ninject 当 T 型祖先时绑定

我有一个大致如下所示的依赖链 public class CarSalesBatchJob public CarSalesBatchJob IFileProvider fileProvider public class MotorcycleS
Scala 中 Await.result 和 futures.onComplete 之间的区别

我使用以下两个代码片段在多个线程中执行代码但我的行为有所不同片段 1 val futures Future sequence Seq f1 f2 f3 f4 f5 futures onComplete case Success valu
Silverlight 中使用安全关键构造函数子类化透明类型的安全规则

在Silverlight v4 0 安全模型中肖恩法卡斯说 http blogs msdn com b shawnfa archive 2007 05 11 silverlight security iii inheritance a
在 Moto 中使用 Boto3（版本 1.8 或更高版本）时如何模拟 AWS 调用

我有一个用 python 编写的 API 可以调用 AWS 服务特别是 sqs s3 和 dynamodb 我正在尝试为 API 编写单元测试并且想模拟对 AWS 的所有调用我对 moto 作为模拟这些服务的一种方式进行了大量研究但
跳转滚动并重定向到博客上同一博客的另一个页面

我有一个博客如果有人点击特定链接我想做他应该在同一页面上的特定点跳转滚动然后几秒钟后他应该自动重定向到同一博客的其他页面重定向到其他博客请也给出示例网站地址我有这个代码脚本就像 function jumpScroll win
Spark Dataframe Write to CSV 在独立集群模式下创建 _temporary 目录文件

我在跑步spark job在有 2 个工作节点的集群中我使用下面的代码 spark java 将计算的数据帧作为 csv 保存到工作节点 dataframe write option header false mode SaveMode

Spark Dataframe Write to CSV 在独立集群模式下创建 _temporary 目录文件

Spark Dataframe Write to CSV 在独立集群模式下创建 _temporary 目录文件 的相关文章

随机推荐

热门标签

Spark Dataframe Write to CSV 在独立集群模式下创建 _temporary 目录文件的相关文章