SparkR 收集方法因 Java 堆空间内存不足而崩溃

2023-12-07

使用 SparkR，我尝试使用 PoC 来收集我从包含大约 4M 行的文本文件创建的 RDD。

我的 Spark 集群在 Google Cloud 中运行，部署了 bdutil，由 1 个主节点和 2 个工作节点组成，每个节点有 15GB RAM 和 4 个核心。我的 HDFS 存储库基于带有 gcs-connector 1.4.0 的 Google Storage。每台机器上都安装了 SparkR，基本测试是在小文件上进行的。

这是我使用的脚本：

Sys.setenv("SPARK_MEM" = "1g")
sc <- sparkR.init("spark://xxxx:7077", sparkEnvir=list(spark.executor.memory="1g"))
lines <- textFile(sc, "gs://xxxx/dir/")
test <- collect(lines)

我第一次运行这个，它似乎工作正常，所有任务都成功运行，spark 的 ui 说作业已完成，但我再也没有得到 R 提示：

15/06/04 13:36:59 WARN SparkConf: Setting 'spark.executor.extraClassPath' to ':/home/hadoop/hadoop-install/lib/gcs-connector-1.4.0-hadoop1.jar' as a work-around.
15/06/04 13:36:59 WARN SparkConf: Setting 'spark.driver.extraClassPath' to ':/home/hadoop/hadoop-install/lib/gcs-connector-1.4.0-hadoop1.jar' as a work-around.
15/06/04 13:36:59 INFO Slf4jLogger: Slf4jLogger started
15/06/04 13:37:00 INFO Server: jetty-8.y.z-SNAPSHOT
15/06/04 13:37:00 INFO AbstractConnector: Started [email protected]:52439
15/06/04 13:37:00 INFO Server: jetty-8.y.z-SNAPSHOT
15/06/04 13:37:00 INFO AbstractConnector: Started [email protected]:4040

15/06/04 13:37:54 INFO GoogleHadoopFileSystemBase: GHFS version: 1.4.0-hadoop1
15/06/04 13:37:55 WARN LoadSnappy: Snappy native library is available
15/06/04 13:37:55 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
15/06/04 13:37:55 WARN LoadSnappy: Snappy native library not loaded
15/06/04 13:37:55 INFO FileInputFormat: Total input paths to process : 68
[Stage 0:=======================================================>                                                                                     (27 + 10) / 68]

然后在按 CTRL-C 恢复 R 提示后，我尝试再次运行收集方法，结果如下：

[Stage 1:==========================================================>                                                                                   (28 + 9) / 68]15/06/04 13:42:08 ERROR ActorSystemImpl: Uncaught fatal error from thread [sparkDriver-akka.remote.default-remote-dispatcher-5] shutting down ActorSystem [sparkDriver]
java.lang.OutOfMemoryError: Java heap space
        at org.spark_project.protobuf.ByteString.toByteArray(ByteString.java:515)
        at akka.remote.serialization.MessageContainerSerializer.fromBinary(MessageContainerSerializer.scala:64)
        at akka.serialization.Serialization$$anonfun$deserialize$1.apply(Serialization.scala:104)
        at scala.util.Try$.apply(Try.scala:161)
        at akka.serialization.Serialization.deserialize(Serialization.scala:98)
        at akka.remote.MessageSerializer$.deserialize(MessageSerializer.scala:23)
        at akka.remote.DefaultMessageDispatcher.payload$lzycompute$1(Endpoint.scala:58)
        at akka.remote.DefaultMessageDispatcher.payload$1(Endpoint.scala:58)
        at akka.remote.DefaultMessageDispatcher.dispatch(Endpoint.scala:76)
        at akka.remote.EndpointReader$$anonfun$receive$2.applyOrElse(Endpoint.scala:937)
        at akka.actor.Actor$class.aroundReceive(Actor.scala:465)
        at akka.remote.EndpointActor.aroundReceive(Endpoint.scala:415)
        at akka.actor.ActorCell.receiveMessage(ActorCell.scala:516)
        at akka.actor.ActorCell.invoke(ActorCell.scala:487)
        at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:238)
        at akka.dispatch.Mailbox.run(Mailbox.scala:220)
        at akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:393)
        at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
        at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
        at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
        at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)

我理解异常消息，但我不明白为什么我第二次收到此消息。另外，为什么在 Spark 中收集完成后永远不会返回？

我用谷歌搜索了所有信息，但没有找到解决方案。任何帮助或提示将不胜感激！

Thanks

这似乎是 Java 内存中对象表示效率低下的简单组合，加上一些明显的长期对象引用，导致某些集合无法及时进行垃圾收集，以便新的collect()调用覆盖旧的一个到位。

我尝试了一些选项，对于包含约 4M 行的 256MB 示例文件，我确实重现了您的行为，第一次收集很好，但第二次使用时 OOMSPARK_MEM=1g。然后我设置SPARK_MEM=4g相反，然后我可以 ctrl+c 并重新运行test <- collect(lines)我想要多少次都可以。

一方面，即使引用没有泄漏，请注意，在第一次运行之后test <- collect(lines)，变量test保存着巨大的线数组，当你第二次调用它时，collect(lines)执行before最终被分配到test变量，因此在任何简单的指令排序中，都无法对旧内容进行垃圾收集test。这意味着第二次运行将使 SparkRBackend 进程同时持有整个集合的两个副本，从而导致您看到的 OOM。

为了诊断，我在主服务器上启动了 SparkR 并首先运行

dhuo@dhuo-sparkr-m:~$ jps | grep SparkRBackend
8709 SparkRBackend

我也检查过top它使用了大约 22MB 内存。我获取了一个堆配置文件jmap:

jmap -heap:format=b 8709
mv heap.bin heap0.bin

然后我跑了第一轮test <- collect(lines)此时运行top使用约 1.7g RES 内存进行展示。我抓住了另一个堆转储。最后我也尝试过test <- {}摆脱引用以允许垃圾收集。完成此操作后，并打印出来test并显示它是空的，我抓起另一个堆转储并注意到 RES 仍然显示 1.7g。我用了jhat heap0.bin分析原始堆转储，得到：

Heap Histogram

All Classes (excluding platform)

Class   Instance Count  Total Size
class [B    25126   14174163
class [C    19183   1576884
class [<other>  11841   1067424
class [Lscala.concurrent.forkjoin.ForkJoinTask; 16  1048832
class [I    1524    769384
...

运行收集后，我有：

Heap Histogram

All Classes (excluding platform)

Class   Instance Count  Total Size
class [C    2784858 579458804
class [B    27768   70519801
class java.lang.String  2782732 44523712
class [Ljava.lang.Object;   2567    22380840
class [I    1538    8460152
class [Lscala.concurrent.forkjoin.ForkJoinTask; 27  1769904

即使在我取消之后test，它保持大致相同。这向我们展示了 2784858 个 char[] 实例，总大小为 579MB，还有 2782732 个 String 实例，大概将这些 char[] 放在它上面。我按照参考图一路向上，得到了类似的东西

char[] -> String -> String[] -> ... -> 类 scala.collection.mutable.DefaultEntry -> 类 [Lscala.collection.mutable.HashEntry; -> 类 scala.collection.mutable.HashMap -> 类 edu.berkeley.cs.amplab.sparkr.JVMObjectTracker$ -> java.util.Vector@0x785b48cd8 (36 字节) -> sun.misc.Launcher$AppClassLoader@0x7855c31a8 ( 138字节）

然后 AppClassLoader 就有数千个入站引用。因此，沿着这条链的某个地方，应该有一些东西已经删除了它们的引用，但没有这样做，导致整个收集到的数组位于内存中，而我们尝试获取它的第二个副本。

最后回答一下关于挂机后挂起的问题collect，看来这与数据不适合 R 进程的内存有关；这是与该问题相关的线程：https://www.mail-archive.com/[电子邮件受保护]/msg29155.html

我确认使用只有几行的较小文件，然后运行collect确实不挂。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

SparkR 收集方法因 Java 堆空间内存不足而崩溃的相关文章

更新 R6 对象实例中的方法定义

如何更新 R6 类实例的方法定义正如我所期望的 S3 使用当前的方法定义对于 R5 参考类我可以使用 myInstance myInstance copy 在 R6 中我尝试了 myInstance myInstance clone
sapply - 保留列名称

我试图总结数据集中许多不同列变量的平均值标准差等我已经编写了自己的汇总函数以准确返回我需要和正在使用的内容sapply立即将此函数应用于所有变量它工作正常但是返回的数据帧没有列名我似乎甚至无法使用列号引用重命名它们也就是说
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
在网格中制作一个矩形图例，并标记行和列

我有一个 ggplot 我将因子映射到填充和 alpha 如下所示 set seed 47 the data lt data frame value rpois 6 lambda 20 cat1 rep c A B each 3 cat2
R在Windows平台Rstudio上打印data.frames中的UTF-8代码

当数据框中存在UTF 8字符时将无法正常显示例如以下内容是正确的 gt U6731 1 朱但是当我将其放入数据框中并打印出来时它是 gt data frame x U6731 x 1
在ggplot中设置y轴中断

我在代码中设置中断时遇到困难我尝试添加breaks seq 0 100 by 20 但似乎无法让它正常工作本质上我希望 Y 轴从 0 到 100 每 20 个刻度一次 YearlyCI lt read table header T te
如何根据 ggplot2 中的汇总数据创建堆积条形图

我正在尝试使用 ggplot 2 创建堆积条形图我的宽格式数据如下所示每个单元格中的数字是响应的频率 activity yes no dontknow Social events 27 3 3 Academic skills works
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
需要在R中跳过不同数量的行

我正在使用以下代码来处理我的数据但最近我意识到使用skip 27 在数据开始之前跳过存储在我的文件中的信息不是一个好的选择因为每个文件中要跳过的行数不同我的目标是读取存储在多个文件夹中的各种txt文件并非所有文件都有相同的列数列的
将维基百科中的表格加载到 R 中

我正在尝试从以下 URL 将最高法院法官表加载到 R 中 https en wikipedia org wiki List of Justices of the Supreme Court of the United States http
如何动态地将 sliderInput 添加到闪亮的应用程序中？

使用闪亮我上传一个 csv 文件并根据列名称我需要向 ui 添加滑块 sidebarPanel fileInput file1 Upload CSV File to Create a Model accept c text csv t
计算 R 行中的非零条目数

我有以下类型的数据 mode1 mode2 mode3 1 8 1 0 2 0 0 0 3 6 5 4 4 1 2 3 5 1 1 1 数据使用dput structure list mode1 c 8L 0L 6L 1L 1L mode2
rvest 函数 html_nodes 返回 {xml_nodeset (0)}

我正在尝试抓取以下网站的数据框 http stats nba com game 0041700404 playbyplay http stats nba com game 0041700404 playbyplay 我想创建一个表格其中包
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
在 Google Colab 上的 R 笔记本中安装 python 库

我正在尝试在 Google Colab 上的 R 笔记本中安装 python 库为此我使用 reticulate 包 library reticulate py install pandas 但我得到的结果是这个错误 Error coul
如何将参数从 Excel/VBA 传递到 Rstudio 中的脚本

我正在尝试使用 Rstudio 从 VBA 打开 R 脚本同时将参数传递给 R 脚本然后我可以使用 commandArgs 访问该脚本该问题与此处描述的问题非常相似 WScript Shell 用于运行路径中包含空格且来自 VBA 的
更改 R 中 ggplot geom_polygon 的颜色方案

我正在使用地图库和 ggplot 的 geom polygon 创建地图我只是想将默认的蓝色红色紫色配色方案更改为其他颜色我对 ggplot 非常陌生所以如果我没有使用正确的数据类型请原谅我使用的数据如下所示 gt head
使用“assign()”为列表项分配值

首先了解一些背景我写了一个中缀函数本质上取代了这个习惯用法 x length x 1 lt y 或者简单地说x lt append x y 对于向量这里是 lt function x y xcall lt substitute x x
将 Excel 文件读入 R 并锁定单元格

我有一个 Excel 电子表格要读入 R 它受密码保护并锁定了单元格我可以使用 excel link 导入受密码保护的文件但我不知道如何解锁取消保护单元格 excel link 给了我这个错误 gt
如何在R中实现countifs函数（excel）

我有一个包含 100000 行数据的数据集我尝试做一些countifExcel 中的操作但速度慢得惊人所以我想知道R中是否可以完成这种操作基本上我想根据多个条件进行计数例如我可以指望职业和性别 row sex occupati

随机推荐

nodejs http模块server.listen()，如果我们不定义端口号，默认端口是多少

server listen port hostname backlog callback 这些参数都是可选的所以我只是打电话 server listen 服务器似乎已启动并运行 but http 127 0 0 1 or http 127
如何覆盖视图布局声明

在 asp net MVC 3 中有没有办法从控制器或操作过滤器覆盖视图中设置的布局声明 Layout Views Shared Layout cshtml 我尝试过重写 OnResultExecuted 或 OnResultExecut
字符串中的短语搜索，制作正确的正则表达式

我会直接开始这就是我所拥有的 var SResults function ActivateSearch s SResults for var key in Products if Products key n search new Reg
点击此 Google 翻译按钮不起作用？

我正在创建一个 Tampermonkey 用户脚本它会自动单击 Google 翻译网站上的星号按钮并保存我的搜索以便我以后可以查看它们并进行排练 This is the button that I am targeting 这是我到
将背景图像加载到 JFrame 中的 JPanel 时出错

我有一个JFrame我想用一个完全占据它JPanel并将背景图像放入JPanel Code public class InicioSesion extends javax swing JFrame private Image imagenF
识别在 ExpandableListView 中被单击的组

我正在尝试识别已在可扩展列表视图中单击的视图当我设置一个OnItemLongClickListener我得到一个参数它显示了列表中单击的视图的位置但是它也会计算儿童观看次数我希望它只计算组数因此当单击一个组时我可以确定它是哪一
获取列名而不是列值

我的桌子table1就像下面这样 id d1 d2 d3 d4 1 6 7 8 9 2 13 10 11 12 3 16 17 14 15 4 19 20 21 18 输出表就像 id d1 d2 d3 d4 min min col 1 6
我们如何实现WebHttpBinding WCF REST服务的会话管理？

我一直在根据需要使用 webHttpBinding 会话模式开发 WCF REST 服务但我总是收到此错误合同需要会话但绑定 WebHttpBinding 不支持它或未正确配置以支持它谁能告诉我这是什么原因吗引用自MSDN 论坛
从特定文件夹动态加载 DLL？

目前我有这个代码 var shellViewLibrary Assembly LoadFrom Path Combine DllsPath DllShellView IEnumerable
如何为rails控制台创建自定义方法？

当我在 Ubuntu 中使用 Rails 控制台进行长时间会话时我定义了clear method def clear system clear end 所以当我的控制台变脏时我唯一要做的就是输入clear并且控制台被清除我想使用这个功能
如何在轮播的第一张和最后一张幻灯片之间添加平滑过渡？

有点难以解释所以我做了这个代码笔供任何参考我正在尝试使用普通 JavaScript 克隆 Bootstrap 轮播我在幻灯片之间添加了过渡这对于第一张和最后一张幻灯片之间存在的所有幻灯片都很有效但是当我单击上一个按钮从第一张幻灯片转
Imageview 跳帧

我在框架中有一个静态页面当我第一次加载图片时我的导航抽屉会跳帧现在只有3 像那样标题图像 1000 像素 x 350 像素 50kb 文本我想在此页面中使用更多图片但认为这看起来不太好因为我在 Nexus 4 上有跳帧并且
System.out.format 如何防止死锁？

我发现在经典中包括对 System out format 的调用Java死锁教程会防止死锁发生但我不明白为什么下面的代码与教程中的代码相同只是添加了main of System out format Hi I m s no deadl
使用 LINQ 比较两个列表元素

我试图找到一个 LINQ 表达式来比较两个列表元素我想做的是 List
是否可以在 JavaScript 中创建“弱引用”？

JavaScript 有没有办法创建对另一个对象的弱引用这是描述什么是弱引用的 wiki 页面这是另一篇用 Java 描述它们的文章有人能想出一种方法在 JavaScript 中实现这种行为吗更新自 2020 年 7 月以来一
使用 jQuery 获取具有特定类名的对象的“祖先”的可靠方法

我有一个 javascript 函数在选择表单元素的更改事件时调用该函数所以 js中的 this 变量指的是select元素该选择元素位于 td 标记中位于 tr 标记中 tr 标记的类名是 FilterDetailsRow 现在
如何 groupby().transform() 在数据框中查找模式？

我有一个像这样的数据框 lst High A High A High B Medium A Medium B Medium C df pd DataFrame lst columns Class Grade 我需要获得每个班级中等级
使用 Powershell 3.0 切换 IIS 7.5 身份验证“匿名身份验证”？

我想使用 Powershell 切换 IIS 管理器 7 5 Windows 7 默认网站我的网站身份验证匿名身份验证中的匿名身份验证启用禁用设置我并不是在寻找改变 web config 文件的东西而是完全按照 IIS 管理
如何使用 Dropzone 为多个图像字段在 Django 中上传多个图像

我正在开发一个项目其功能是用户可以使用拖放功能上传多个图像我正在使用 Django python 进行开发我已经在 django 模板中实现了拖放功能但是在提交表单数据时出现图像错误我的 Html 模板代码是
SparkR 收集方法因 Java 堆空间内存不足而崩溃

使用 SparkR 我尝试使用 PoC 来收集我从包含大约 4M 行的文本文件创建的 RDD 我的 Spark 集群在 Google Cloud 中运行部署了 bdutil 由 1 个主节点和 2 个工作节点组成每个节点有 15GB R

SparkR 收集方法因 Java 堆空间内存不足而崩溃

SparkR 收集方法因 Java 堆空间内存不足而崩溃 的相关文章

随机推荐

热门标签

SparkR 收集方法因 Java 堆空间内存不足而崩溃的相关文章