Spark：shuffle操作导致GC长时间暂停

2024-05-04

我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json。我在洗牌期间遇到了很长的垃圾收集暂停Dataset:

val operations = spark.read.json(inPath).as[MyClass]
operations.repartition(partitions, operations("id")).write.parquet("s3a://foo")

是否有任何明显的配置调整来解决这个问题？我的配置如下：

spark.driver.maxResultSize 6G
spark.driver.memory 10G
spark.executor.extraJavaOptions -XX:+UseG1GC -XX:MaxPermSize=1G -XX:+HeapDumpOnOutOfMemoryError
spark.executor.memory   32G
spark.hadoop.fs.s3a.buffer.dir  /raid0/spark
spark.hadoop.fs.s3n.buffer.dir  /raid0/spark
spark.hadoop.fs.s3n.multipart.uploads.enabled   true
spark.hadoop.parquet.block.size 2147483648
spark.hadoop.parquet.enable.summary-metadata    false
spark.local.dir /raid0/spark
spark.memory.fraction 0.8
spark.mesos.coarse  true
spark.mesos.constraints  priority:1
spark.mesos.executor.memoryOverhead 16000
spark.network.timeout   600
spark.rpc.message.maxSize    1000
spark.speculation   false
spark.sql.parquet.mergeSchema   false
spark.sql.planner.externalSort  true
spark.submit.deployMode client
spark.task.cpus 1

添加以下标志消除了 GC 暂停。

spark.executor.extraJavaOptions -XX:+UseG1GC -XX:InitiatingHeapOccupancyPercent=35 -XX:ConcGCThreads=12

我认为这确实需要进行大量的调整。This https://databricks.com/blog/2015/05/28/tuning-java-garbage-collection-for-spark-applications.htmldatabricks 帖子非常非常有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

garbagecollection

apachesparksql

g1gc

Spark：shuffle操作导致GC长时间暂停的相关文章

如何在超时的情况下在单独的调度程序上运行 Akka Streams 图？

这个问题是基于我做过的一个宠物项目这个SO https stackoverflow com questions 34641861 akka http blocking in a future blocks the server 34645
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
垃圾收集器如何在幕后工作来收集死对象？

我正在阅读有关垃圾收集的内容众所周知垃圾收集会收集死亡对象并回收内存我的问题是 Collector 如何知道任何对象已死亡它使用什么数据结构来跟踪活动对象我正在研究这个问题我发现GC实际上会跟踪活动对象并标记它们每个未标记的
循环内的局部变量会被垃圾收集吗？

我想知道将循环内引用的任何变量放在循环外是否更有效或者它们可以像函数内的变量一样被垃圾收集吗 var obj key val for var i 0 i lt 10 i console log obj or for var i 0 i l
如何在 scala repl 和 sbt 控制台中关闭/打开 typer 阶段

是否可以在不退出当前会话的情况下切换阶段我尝试进入 power 模式但它仍然不打印类型在SBT中只需添加以下设置 set scalacOptions in Compile console Xprint typer 在 REPL 中你可
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
为什么自类型类可以声明类

我知道 Scala 只能混合特征这对于依赖注入和蛋糕模式是有意义的我的问题是为什么我仍然可以声明一个需要另一个类但不需要特征的类 Code class C class D self C gt 这仍然编译成功我认为它应该编译失败因
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
Scala 使用的 Redis 客户端库建议

我正在计划使用 Scala 中的 Redis 实例进行一些工作并正在寻找有关使用哪些客户端库的建议理想情况下如果存在一个好的库我希望有一个为 Scala 而不是 Java 设计的库但如果现在这是更好的方法那么仅使用 Java 客
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
为什么 RackMultipart* 文件保留在我的 Rails /tmp 目录中？

我正在使用 Paperclip 2 3 来处理在 Ubuntu 上运行的 Rails 3 0 3 应用程序上的图像上传 Paperclip 正在按广告处理上传但在应用程序的 tmp 文件夹中创建的 RackMultipart 文件仍然存在
Akka-Http 2.4.9 抛出 java.lang.NoClassDefFoundError: akka/actor/ActorRefFactory 异常

我正在尝试使用 Akka http 构建一个简单的 Web 服务我遵循了这个指南 http doc akka io docs akka 2 4 9 scala http low level server side api html htt
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
使用 Shapeless 记录组合任意数量的状态更改函数

我正在尝试移植combineReducers从 Redux 到 Scala 这个想法是每个函数控制它的一小部分状态并且combineReducers创建一个控制整个状态的函数我无法找出应该像这样工作的函数所需的签名 sealed trai
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
使用 Akka 1.3 的 actor 时，我需要注意生产者-消费者速率匹配吗？

使用 Akka 1 3 时我是否需要担心当生成消息的 Actor 生成消息的速度比使用消息的 Actor 的处理速度快时会发生什么如果没有任何机制在长时间运行的进程中队列大小将增大以消耗所有可用内存 The doc http doc
Scala 中的随机列表[重复]

这个问题在这里已经有答案了我对 scala 中的随机播放列表有疑问使用scala util Random 例如我有 val a cyan val b magenta val c yellow val d key val color Ra
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J

随机推荐

将 PhotoSwipe 配置为不使用整个窗口？

我目前正在尝试使用构建移动图片库照片滑动 http photoswipe com 我已经能够让它工作了但有一个小问题当我单击照片缩略图实际照片总是占据整个视口当您在移动设备上查看图库时这是可以的但是如果您的视口是计算机屏幕
托管 C++ 引用类

任何好的网站或解释什么是ref class何时将一个类声明为引用类 msdn上的解释对我来说还不够基本类型可选一个基础类型引用类或引用结构可以继承零个或多个托管接口以及零个或一个引用类型值类或值结构只能从零个或多个托管接口继承
git 克隆密码存储或缓存在哪里？

环境定义使用Windows 10操作系统我使用 githttps git scm com https git scm com 和 Github 的 Git Shell 背景当我发出如下所示的 git clone 命令时 git clo
Prism 6 与旧版本的兼容性

我有一个使用 Prism 5 WPF 的主项目的解决方案该解决方案还包含更多属于 Prism 模块的项目现在我必须创建一个新模块我想知道我是否只能在该模块中使用 Prism 6 并且它将与 Prism 5 主项目兼容或者我是否需要在
在 Python 中读取 .docx 文件以查找删除线、项目符号和其他格式

任何人都可以帮助我在使用 python docx 的 Python 中识别 docx 文件中的段落是否包含带有删除线格式的文本即它出现但被划掉或者在开头有一个项目符号点我正在尝试编写一个脚本来识别文档中的结构并解析内容到目前为止我
新 WordPress 网站中出现奇怪的 url 重写问题

我刚刚在 AWS EC2 主机中设置了一个新的 Wordpress 站点其 DNS 主机名如下 http ec2 34 230 30 128 compute 1 amazonaws com 一切正常所以我继续设置一个友好的域名 word
MySQL 错误：无法创建表（errno：121“写入或更新时重复键”）

我使用 MySQL Workbench 生成数据库的图表和代码当我将代码放入 phpMyAdmin 时它显示错误 1005 无法创建表wypozyczalnia wypozyczenie 错误号 121 写入或更新时密钥重复哪里有问题
运行 TensorFlow 时使用 CNMeM 有什么意义吗？

The CNMeM 库 https github com NVIDIA cnmem是一个帮助深度学习框架管理 CUDA 内存的简单库据报道 CNMeM 提供了一些有趣的速度改进 https datascience stackexchan
如何提取图像中的表格

我想从图像中提取表格这个 python 模块https pypi org project ExtractTable https pypi org project ExtractTable 与他们的网站https www extractta
MD5 和 SHA1 的安全性如何

嘿只是一个简单的问题因为我想更多地了解哈希函数我知道它们如何工作以及它们做什么但是它们的安全性如何我希望得到一个简单的答案而不是链接因为我从来没有发现它们有用现在的技术两者都可以cracked http www hackth
如何在Spring中模拟ModelMapper？

我正在尝试为我的服务层编写单元测试 SpringBootTest class ClinicServiceTest Mock private ProcedureRepository procedureRepository InjectMock
一键切换两个复选框，无需js

有没有办法切换两个combined一键点击复选框我有一个小日历我想用复选框选择几周一周可以是两个月所以同一周我有两个复选框我怎样才能安全地将它们结合起来我正在使用这个抽象 HTML
EOF 符号常量

From C 编程语言 int c while c getchar EOF putchar c 解决办法是getchar当没有更多输入时返回一个独特的值该值不能与任何真实字符混淆这个值称为EOF 表示文件结束我们必须声明c是一个足
gulp + 浏览器同步无法获取/错误

我正在学习当前的前端构建系统我想使用浏览器同步问题是它不会在命令行中抛出错误而是当它启动浏览器时它不会显示我的html文件并且它会在浏览器窗口中显示无法获取错误这是我的 gulpfile js 代码 var gulp req
电话链接在 iframe 中不起作用，但在 iOS 9 Web 中的 div 中起作用。如何使电话链接在 iOS 9 safari 中正常工作？

您好我正在尝试 iOS9 中 iframe 内的电话链接 iOS9 中的 safari 中无法打开手机应用程序当我在里面尝试相同的链接时它就在那里工作我正在尝试下面的锚标记将此代码放入 div 中时会打开手机应用程序但同样的代码
使用元素通过 Wix 运行 SQL 脚本文件

我是 Wix 安装程序的新手我有一个要求必须提供 SQL Server 登录凭据并从特定路径运行脚本我不明白出了什么问题项目已成功构建并创建了 msi 运行后我收到以下错误错误26204 错误 2147217900 无法执行SQL
如何在SAS中删除重复的记录\观察而不进行排序？

我想知道是否有办法取消重复记录WITHOUT排序有时候我想保留原来的顺序只想删除重复的记录是否可以顺便说一句以下是我对不重复记录的了解它最终会进行排序 1 proc sql create table yourdata nodu
JavaScript：异常排序

假设我有一个对象数组为了更简单的显示目的我将其显示为数组 TEST NEW ALPHA ZOO WHATEVER 我需要按字母顺序对其进行排序简单的部分但是我需要以某种方式对其进行排序即某个单词可以说NEW将会在最后结束 AL
如何通过调用 HTTP API 网关 + Lambda（已使用 Amazon Cognito 用户池进行身份验证）获取用户详细信息

用户登录 Amazon Cognito 应用程序 Web 会获取一个访问令牌每当调用 API 网关 HTTP API 或 REST API 时都会使用该令牌 API 网关配置为使用 Cognito 用户池作为授权者因此如果访问令牌
Spark：shuffle操作导致GC长时间暂停

我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json 我在洗牌期间遇到了很长的垃圾收集暂停Dataset val operations spark read json inPath as MyClass operations re

Spark：shuffle操作导致GC长时间暂停

Spark：shuffle操作导致GC长时间暂停 的相关文章

随机推荐

热门标签

Spark：shuffle操作导致GC长时间暂停的相关文章