如果Spark支持内存溢出到磁盘，那么Spark Out of Memory怎么会发生呢？

2024-04-18

我读了一些关于Spark内存管理的文档。

在本页面：如果我没有足够的内存，spark 会做什么？ https://stackoverflow.com/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory。它说：

Spark将分区存储在内存中的LRU缓存中。当缓存达到其大小限制时，它会从中驱逐条目（即分区）。当分区具有“磁盘”属性时（即您的持久性级别允许在磁盘上存储分区），它将被写入 HDD 并且它消耗的内存将被释放，除非您请求它。当您请求它时，它将被读入内存，如果没有足够的内存，则缓存中的其他较旧的条目将被逐出。如果您的分区没有“磁盘”属性，则逐出仅意味着销毁缓存条目而不将其写入 HDD。

那么如果内存不够的话分区会溢出到磁盘，那么Spark运行时怎么会出现内存不足的问题呢？

Spark 只能逐出缓存的 RDD 块。也就是说，如果存在应用程序标记为存储在内存中的 RDD。因此，可以清除存储器的存储部分，但不能清除执行部分。Spark内存管理 https://spark.apache.org/docs/2.4.1/tuning.html#memory-management-overview指出

执行内存是指用于洗牌、连接、排序和聚合中的计算的内存。

以及他们是否可以被驱逐

由于实现的复杂性，存储可能不会驱逐执行。

如果JVM可用的内存量小于所需的执行内存，必然会发生OOM。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

如果Spark支持内存溢出到磁盘，那么Spark Out of Memory怎么会发生呢？的相关文章

在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1

随机推荐

Symfony2 php.ini

当检查时app check php Symfony2说这个Configuration file used by PHP etc php5 cli php ini然而phpinfo 显示 Apache 正在使用 etc php5 apache
如何让两个模型互相引用 Django

我有以下代码 class Game models Model title models CharField max length 50 summery models CharField max length 500 key models I
Laravel 5 将数据从中间件传递到控制器

我的中间件类似于Auth 它检查 URL 模式例如 rest 然后在请求中查找令牌从数据库中检索其相应的用户之后我想将该用户保存在一个变量中以便稍后可以在以下任何控制器中返回该用户最好的办法是什么中间件 public func
LINQ 删除重复项和结果项以获得数量总和

我只是想检查是否有更快的方法使用 LINQ 通过 id 从重复项中删除列表但在结果列表项中将具有一些其他属性的总和在本例中为价格例如起始列表 List
通过 Open Graph API 以编程方式创建 Facebook 页面

我希望有一种方法可以使用开放图 API 创建 Facebook 页面该文档仅显示页面存在后我可以进行的 API 调用目前我的网站上有电影简介我想在 Facebook 上为每个电影简介创建一个页面我知道我可以添加赞按钮一旦单击
@Transactional 和 AOP 之间的混淆

Transactional 是否在 Spring 3 中替代了 AOP 它们相同吗我可以说 Transactional在内部实现了AOP吗 The Transactionnal注释只是声明方法或类的所有方法是事务性的简单方法 Spri
检测 MATLAB 帮助浏览器

我想为大型 MATLAB 应用程序创建一些 HTML 文档主要在 MATLAB 帮助浏览器从 11b 开始的任何版本的 MATLAB 中查看这将有一些自定义 CSS 但没有什么非常复杂的但是我还希望在其他浏览器中可以查看相同的文
如何创建一个 numpy 数组来描述三角形的顶点？

我喜欢使用 Numpy 创建要传递到的顶点数组glsl Vertices将是一个包含 3 个顶点信息的 numpy 数组 Each vertex包括 pos x y 具有 32 位的 64 位有符号浮点格式 R 分量位于字节 0 3 中 3
如何查看SQL Server 2008中表空间的总使用量？

在 SQL server 2008 中我如何通过 SQL 查询找到 SQL Server 2008 R2 的特定实例或所有实例的表空间使用百分比另外获取 SQL Server 的所有命名实例的列表的最佳方法查询是什么这是
如何在我的开发环境中管理多个版本的 Scala 和 SBT？

我刚刚完成了很棒的 Coursera Scala 课程并渴望通过探索一些现有的开源项目来继续了解有关 Scala 的更多信息不过我在尝试让其中一些在本地运行时遇到了障碍我有 Ruby 背景我们使用诸如rvm or rbenv在一个
Android 形状背景

是否可以在 xml 中绘制一个形状并使用 png 作为该形状的背景我已经有了形状它是一个带圆角的正方形我想为该正方形添加背景是的您可以使用任何形状文件作为任何视图的背景此示例创建圆形背景形状周围有白色和黑色边框样本圆角
护照验证不重定向

我正在编写一个本地注册策略发现它不起作用所以我退后一步尝试对我的空集合进行身份验证每次我提交表单都会花费大约 30 40 秒的时间直到导致超时我确保调用了 Passport authenticate 但似乎它没有执行任何重定向
在 Android 中初始化 Firebase crashlytics

我已在我的 Android 项目中将 Fabric Crashlytics 迁移到 Firebase Crashlytics 在使用织物时在活动课上我使用了以下线 Fabric with this new Crashlytics 但迁移后
在 Java 7 和 8 中创建与现有列表不同的列表？

如果我有 List
如何使用 symfony 2.3 在 WebTestCase 中提交无效的选择选项

我正在尝试在 symfony 2 3 中测试一个表单该表单具有选择输入以及文件上传 enctype multipart form data 选择输入如下这是必填字段有 3 个选项 1 2 3 使用 DomCrawler 我选择表单
调试时会忽略依赖项 commons-logging:commons-logging:1.2，因为它可能与 Android 提供的内部版本冲突

我收到以下警告警告依赖 commons logging commons logging 1 2 被忽略调试因为它可能与提供的内部版本冲突安卓如果出现问题请用jarjar重新打包更改类包依赖项 commons logging
如何获取 URL 中最后一个斜杠之后的所有内容？

如何在 Python 中提取 URL 中最后一个斜杠后面的内容例如这些 URL 应返回以下内容 URL http www test com TEST1 returns TEST1 URL http www test com page T
openlayers：使用 MVT VectorTileSource 进行集群不可能吗？

我是 openlayers 的新手我想使用cluster矢量数据的函数如果我指示为这似乎不起作用source 在 Cluster 选项中 MVT VectorTileSource 代码如下没有集群也能正常工作不支持吗谢谢彼得
KeyValuePair<> 结构的 Deconstruct 方法在哪里？

我确信我以前见过这个方法因为一年前我问过 KeyValuePair 结构中 Deconstruct 方法的用途是什么 https stackoverflow com questions 51809890 what is the purpo
如果Spark支持内存溢出到磁盘，那么Spark Out of Memory怎么会发生呢？

我读了一些关于Spark内存管理的文档在本页面如果我没有足够的内存 spark 会做什么 https stackoverflow com questions 20301661 what will spark do if i dont h

如果Spark支持内存溢出到磁盘，那么Spark Out of Memory怎么会发生呢？

如果Spark支持内存溢出到磁盘，那么Spark Out of Memory怎么会发生呢？ 的相关文章

随机推荐

热门标签

如果Spark支持内存溢出到磁盘，那么Spark Out of Memory怎么会发生呢？的相关文章