Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

2024-05-05

我正在尝试对 Cloudera 的 Spark (2.1.0) 中的数据帧进行 groupBy 操作，该集群位于总 RAM 约为 512GB 的 7 节点集群上。我的代码如下。

ndf = ndf.repartition(20000)
by_user_df = ndf.groupBy(ndf.name) \
            .agg(collect_list("file_name")) \
            .withColumnRenamed('collect_list(file_name)', 'file_names')


by_user_df = by_user_df.repartition(20000)    
by_user_df.count()

ndf 是一个包含 2 列、一个用户 ID 和一个文件名的数据框。我正在尝试按用户 ID 创建文件名列表，以传递给 CountVectorizer 和聚类。

我收到以下错误

java.lang.OutOfMemoryError: Requested array size exceeds VM limit
    at org.apache.spark.sql.catalyst.expressions.codegen.BufferHolder.grow(BufferHolder.java:73)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)
    at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
    at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:377)
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
    at org.apache.spark.shuffle.sort.UnsafeShuffleWriter.write(UnsafeShuffleWriter.java:166)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53)
    at org.apache.spark.scheduler.Task.run(Task.scala:99)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)

据我所知，这是由于分配的数组大于虚拟机在连续内存中可以处理的大小，或者大于系统数组大小的最大值。许多建议是通过分成更多分区来实现更多并行化。

我有大约 6000 个用户和大约 7000 个文件名。我注意到死亡的执行者大部分时间都花在垃圾收集上。

到目前为止我已经尝试过以下操作：

重新分区 ndf 数据帧和生成的数据帧。我在每个重新分区参数中尝试了最多 60k。
我已将“spark.sql.shuffle.partitions”设置为最多 20000 个步骤
我已将执行程序内存提升至 25G
尽管死掉的执行程序似乎不是驱动程序，但我也将驱动程序内存增加到了 25G。

作为这个问题的更新：我意识到在这种情况下我正在对数据进行二进制聚类，所以我实际上只需要每个文件名之一。改变collect_list to collect_set给我留下了我需要的输出，并且显然足够小，可以在给定的参数内运行。我仍然会尝试修复原来的情况。

首先我不太明白为什么你需要这么高的分区值。我不知道 7 个工作线程中每个线程有多少个核心，但我怀疑你需要超过 200 个分区（你使用的分区数量非常多，这实际上可以解释为什么你的工作线程死于垃圾收集）

您的问题看起来像是 JVM 定义中的内存问题，因此我认为没有理由增加驱动程序或工作人员内存。

我认为您需要的是设置 Xss 和 Xmx 或 MaxPermSize，如下所述：如何修复 Java 中的“请求的数组大小超出 VM 限制”错误？ https://stackoverflow.com/questions/5497259/how-to-fix-requested-array-size-exceeds-vm-limit-error-in-java

为此，您需要在运行 Spark 时使用 --conf spark.driver.extraJavaOptions 和 --conf spark.executor.extraJavaOptions。

例如：

--conf spark.driver.extraJavaOptions="-Xss10m -XX:MaxPermSize=512M " --conf spark.executor.extraJavaOptions="-Xss10m -XX:MaxPermSize=128M "

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制的相关文章

将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
无法在 AWS Glue PySpark 开发终端节点中正确运行脚本

我已经配置了一个 AWS Glue 开发终端节点并且可以在 pyspark REPL shell 中成功连接到它像这样https docs aws amazon com glue latest dg dev endpoint tutor
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹

随机推荐

在 UNIX 时间戳 Shell/Bash 中将日期与时区转换

我需要将日期从格式为 yyyy mm dd hh mm ss TZ 的字符串转换为 UNIX 时间 TZ 时区到目前为止我所做的是将没有时区的 yyyy mm dd hh mm ss 格式的日期转换为时间戳 dateYMD 2019 2
单击“提交”后如何将 Google 表单（新版本）重定向到自定义 URL

新版本的 Google Forms 很好但它缺少 1 个关键功能这应该很容易但我不知道如何实现它创建 Google 表单时一旦访问者点击提交我想将他们重定向到自定义网址或自定义感谢页面即http cnn com http c
pytorch 的 IDE 自动完成

我正在使用 Visual Studio 代码最近尝试了风筝这两者似乎都没有 pytorch 的自动完成功能这些工具可以吗如果没有有人可以推荐一个可以的编辑器吗谢谢你使用Pycharmhttps www jetbrains co
将“-Filter”与变量一起使用

我尝试过滤掉这样的东西 Get ADComputer Filter name like chalmw dm and Enabled eq true 这就像一个魅力并且得到了我想要的现在我想要类似名称部分作为变量如下所示 Get A
使用 Geoserver 中的 Javascript 动态设置 WMS 图层样式

我的 Web 应用程序通过 Geoserver 2 6 0 从 Postgis 向 OpenLayers 地图提供 WMS 图层工作正常且符合预期用户可以通过 WMS 图层的属性通过 HTML 中的下拉框过滤 WMS 图层的某些元素
“推”匹配 UIInterpolatingMotionEffect？（即访问 UIInterpolatingMotionEffect 上的“物理”）

借助 UIInterpolatingMotionEffect 扭转 iPhone 即可让图像移动现在想象一个红色块您将使用 UICollisionBehavior 和 UIDynamicItemBehavior 在屏幕上弹跳当用户
为什么分配大块内存会失败，而重新分配小块内存却不会失败

这段代码的结果是x指向一块大小为 100GB 的内存 include
无法向引导服务器注册 com.XXXXX.deviceapp

我在设备中运行时遇到此错误请确实需要全面的帮助来解决此问题无法向引导服务器注册 com XXXXX deviceapp 错误未知错误代码这通常意味着该进程的另一个实例已经在运行或挂在调试器中程序收到信号 SIGABRT 我就遇到过
ASP.NET、SQL 2005“分页”

这是该问题的后续用于在表单中显示单行的 ASP NET 下一个上一个按钮 https stackoverflow com questions 1014526 asp net next previous buttons to displa
单击其他 div 时切换类中的单个元素 Jquery

我正在尝试为 WordPress 构建设置一个简单的评论切换 CSS div class commenttoggle p class popcom Show Comments p Clickable Button div div class
旋转UIImage自定义角度

我想以自定义角度旋转 UIImage 不是 UIImageView 我跟着这个帖子 https stackoverflow com questions 917713 uiimage rotation custom degrees但这对我不起
SSIS 脚本任务在服务器上失败，并出现错误“无法加载脚本以执行”

我有 3 个带有脚本任务的 SSIS 包它们都执行非常相似的操作查询 SQL Server 数据库循环遍历结果然后为每一行调用 SOAP Web 服务这些包在本地运行良好并且在开发和 QA 服务器上运行良好在生产服务器上 1
Rails - 将模块包含到控制器中，以在视图中使用

我对 Rails 很陌生我尝试设置一个要在视图中使用的模块文件所以我相信正确的行为是将模块定义为控制器中的助手瞧它应该可以工作然而对我来说情况并非如此这是结构 lib functions form manager rb 表单管
如何使用哈希表在最小堆上实现 O(1) 删除

在某处阅读以下声明可以使用附加的哈希表来快速删除最小堆问题 gt 如何组合priority queue and unordered map这样我就可以实现上面的想法了 include
在 Mathematica 中使用 f@expr 和 expr // f 得到不同的结果

我正在玩Prefix and Postfix运算符 and 分别我遇到了以下问题给定以下代码它们以完全相同的方式进行评估 Hold MatrixPlot Sort data FullForm Hold MatrixPlot Sort
Java心跳设计

我需要在我的 Java 项目上实现一个心跳系统 3 5 个客户端和 1 个服务器但我有一些问题 1 客户端需要有 2 个套接字吗 1 用于心跳 1 用于接收我的软件的正常消息 2 我看到在特定情况下当客户端滞后时客户端不会收到消息如
angular.js 的智能感知在 javascript 文件中不起作用

我使用的是 Visual Studio 2013 它支持 Angular js 的 Intellisense 当我在 HTML5 文件的脚本标记内创建 Angular js 模块时 Intellisense 确实可以工作但是当我尝试在
emacs 的最佳 java 工具 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
无法向 kafka 主题发送消息

我正在使用 Kafka Play 以及 Scala 这是我的代码我想在其中发送消息到kafka服务器主题名称是测试主题尽管我没有在主题中看到我发送的消息但我没有收到任何错误这里有什么问题吗 import kafka produc
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user

Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制 的相关文章

随机推荐

热门标签

Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制的相关文章