Spark 组由于内存不足问题

2024-01-25

我正在一个相当小的数据集（HDFS 中的 80 个文件，总共很少）上执行一个简单的 groupBy。我在纱线集群中的 8 台低内存机器上运行 Spark，即：

spark-submit ... --master yarn-client --num-executors 8 --executor-memory 3000m --executor-cores 1

该数据集由长度为 500-2000 的字符串组成。

我正在尝试做一个简单的groupByKey（见下文），但它失败了java.lang.OutOfMemoryError: GC overhead limit exceeded例外

val keyvals = sc.newAPIHadoopFile("hdfs://...")
  .map( someobj.produceKeyValTuple )
keyvals.groupByKey().count()

我可以使用以下方法计算组大小reduceByKey没有问题，请确保问题不是由单个过大的组引起的，也不是由过多的组引起的：

keyvals.map(s => (s._1, 1)).reduceByKey((a,b) => a+b).collect().foreach(println)
// produces:
//  (key1,139368)
//  (key2,35335)
//  (key3,392744)
//  ...
//  (key13,197941)

我尝试过重新格式化、重新排列和增加 groupBy 并行度：

keyvals.groupByKey(24).count // fails
keyvals.groupByKey(3000).count // fails
keyvals.coalesce(24, true).groupByKey(24).count // fails
keyvals.coalesce(3000, true).groupByKey(3000).count // fails
keyvals.coalesce(24, false).groupByKey(24).count // fails
keyvals.coalesce(3000, false).groupByKey(3000).count // fails

我尝试过玩spark.default.parallelism，并且增加spark.shuffle.memoryFraction to 0.8同时降低spark.storage.memoryFraction to 0.1

失败的阶段（计数）将在 3000 个任务中的第 2999 个任务上失败。

我似乎找不到任何表明 groupBy 不应该只溢出到磁盘而不是将内容保留在内存中的内容，但我就是无法让它正常工作，即使在相当小的数据集上也是如此。显然情况并非如此，我一定做错了什么，但我不知道从哪里开始调试！

Patrick Wendell 阐明了 groupBy 运算符的一些细节在邮件列表上 http://apache-spark-user-list.1001560.n3.nabble.com/Understanding-RDD-GroupBy-OutOfMemory-Exceptions-td11427.html#a11487。要点如下：

在分区内，东西会溢出 [...] 这种溢出只能发生跨键眼下。目前钥匙内不会发生溢出。 [...] GroupBy 的一个键内的溢出很可能会出现在 Spark 的下一版本 Spark 1.2 中。 [...] 如果目标实际上是将与每个组关联的所有值写入磁盘，并且与单个组关联的值大于内存容量，则现在无法使用 groupBy 运算符来完成此操作。

他进一步建议了一种解决方法：

解决此问题的最佳方法在一定程度上取决于您尝试对下游数据执行的操作。通常的方法涉及细分任何非常大的组，例如，将小范围（1-10）内的散列值附加到大键。然后，您的下游代码必须处理聚合每个组的部分值。如果您的目标只是将每个组按顺序放置在磁盘上的一个大文件上，您可以调用sortByKey也带有散列后缀。排序函数在 Spark 1.1（预发行版）中被外部化。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark 组由于内存不足问题的相关文章

Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
四舍五入数据框中的所有列 - 两位小数 pyspark

我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入不是每一列
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
在S3中捕获Kubernetes Spark驱动程序和执行程序日志并在历史服务器中查看

我正在 Kubernetes 上使用 Spark submit cli 运行 Spark 3 0 0 和 Hadoop 2 7 如下所示 spark submit master k8s https api k8s my domain com
为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h

随机推荐

open() 不适用于隐藏文件 python

我想使用 python 在隐藏文件夹中创建并写入 txt 文件我正在使用这段代码 file name hi txt temp path myfolder docs file name file open temp path w file
在实践中，std::sort 和 std::stable_sort 之间的性能差距有多大？

两者都应该以 O n log n 的速度运行但一般来说排序比 stable sort 更快实践中的性能差距有多大你对此有一些经验吗我想要对大量大小约为 20 字节的结构进行排序对于我来说结果的稳定性很好但这不是必须的目前底层
C++ 联合中“受保护”的意义是什么

受保护的成员或函数有什么用途吗您不能从联合继承因此没有子项可以访问它它是否提供了功能用途或者只是因为移除它很麻烦而存在 protected in a union变得完全等价于private 但是这个津贴没有坏处并且避免了额外的特殊
循环播放特定 Gmail 标签的邮件（而非线程）

我添加了具体的messages 而且不是全部thread 到标签to process通过以下步骤 Turn Conversation ModeGmail 设置中关闭贴上标签to process到特定消息当显示消息时我可以确认只有特定的
如何在Python中使用循环创建元组[重复]

这个问题在这里已经有答案了我想创建这个元组 a 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6 7 7 7 8 8 8 9 9 9 我尝试过这个 a 1 1 1 for i in range 2 10 a a i
访问 coo_matrix 中的元素

这是一个非常简单的问题对于像 coo matrix 这样的 SciPy 稀疏矩阵如何访问单个元素类比 Eigen 线性代数库可以使用 coeffRef 访问元素 i j 如下所示 myMatrix coeffRef i j 来自 c
Web 应用程序中的 Spring 线程

我正在为MMO浏览器游戏编写服务器我需要创建几个线程他们将一直运行并有一些睡眠时间使用这样的弹簧线是个好主意吗 Component Scope prototype public class PrintTask2 implements
Instagram 基本显示 API 分页

无论如何是否可以对使用 Instagram Basic Display API 获得的媒体结果使用分页我已阅读以下文档但他们没有任何使用分页的示例 https developers facebook com docs instagra
将带有描述性注释的框添加到 ggplot2 中的 y 轴

我正在尝试向我的 Y 轴添加另一个标签或描述我附上了一张图片作为我想要完成的任务的参考我找不到任何描述如何向轴添加其他元素的内容它是 Y 轴旁边的好和坏框我试图将其合并到我的 ggplot 中谢谢在此输入图像描述 htt
使用 React Native 和 Hooks 时，Jest 测试期间状态不会更新

我正在尝试测试组件中的功能基本思想是设置某种状态当按下按钮时将使用设置的状态调用函数该代码可以工作但是当我尝试测试它时我没有得到预期的结果就好像在测试期间状态从未被设置我正在使用 Jest 和 Enzyme 测试的 Reac
SQL Server 中 INNER 连接和笛卡尔连接的区别[重复]

这个问题在这里已经有答案了可能的重复内连接和全连接的区别 https stackoverflow com questions 3022713 difference between inner join full join 这两者之间有什
Node js Express 应用程序中使用 setTimeout 获取请求的并发性

控制台日志图片 https i stack imgur com TKhfa png const express require express const app express const port 4444 app get async
提高 Python 模块导入速度

之前已经问过如何加速Python模块导入的问题加速 python 导入加载器 https stackoverflow com questions 2010255 speeding up the python import loader
内存不足异常selenium服务器2.0b3

我们刚刚部署了selenium服务器2 0b3 从1 0 3升级它看起来有一些相当严重的内存泄漏 OutOfMemory 运行时间超过 30 分钟时抛出异常是否有任何直接的解决方法来处理内存泄漏 2 0b3 硒服务器我希望获得 2
gun db 中公共空间、用户空间和冻结空间的简单示例

枪看起来很棒既有用又好用然而我很难理解之间的区别public空间放置 auser空间放置和frozen空间放置 https gun eco docs Introduction data 我尝试的最简单的例子是公共场所 let gun
如何将X11事件传递给QDialog

目前我正在尝试将系统 X11 事件在 Linux 上传递给我创建的对象为此我从 QApplication 中将 eventFilter 安装到了我的对象上这是有效的因为它获取应用程序的所有事件但是我还需要传递对象 X11 事
bash 中的数组运算符

有没有办法测试数组是否包含指定元素例如 array one two three if one in array then fi 一个 for 循环就可以解决这个问题 array one two three for i in array d
NodeJS 和客户端与 Yeoman 和 Mocha 的全面集成测试

我与 Yeoman 一起运行了很棒的客户端测试 Yeoman 编译我的 CoffeeScript 在服务器中打开测试页面使用 PhantomJS 访问它并将所有测试结果传递到命令行这个过程非常hacky 测试结果通过alert 发送到
用猫鼬增加价值？

我有一个mongoose我的模型node js应用程序代表发票我已经弄清楚了大部分内容但我确实需要确保我的发票被编号递增以便能够为我的客户提供正确的参考使用 SQL 数据库我会创建一个AUTO INCREMENT列保存这个值
Spark 组由于内存不足问题

我正在一个相当小的数据集 HDFS 中的 80 个文件总共很少上执行一个简单的 groupBy 我在纱线集群中的 8 台低内存机器上运行 Spark 即 spark submit master yarn client num execu

Spark 组由于内存不足问题

Spark 组由于内存不足问题 的相关文章

随机推荐

热门标签

Spark 组由于内存不足问题的相关文章