如果我没有足够的内存，spark 会做什么？

2023-12-29

我是 Spark 新手，我发现文档说 Spark 会将数据加载到内存中以使迭代算法更快。

但是如果我有 10GB 的日志文件而只有 2GB 内存怎么办？ Spark 会像往常一样将日志文件加载到内存中吗？

我认为这个问题在 Spark 网站的 FAQ 面板中已经得到了很好的回答（https://spark.apache.org/faq.html https://spark.apache.org/faq.html):

如果我的数据集不适合内存，会发生什么情况？通常，每个数据分区都很小并且适合内存，并且这些分区一次只能处理几个。对于无法容纳在内存中的非常大的分区，Spark 的内置运算符对数据集执行外部操作。
当缓存的数据集不适合内存时会发生什么？Spark 可以将其溢出到磁盘，或者在每次请求时重新计算不适合 RAM 的分区。默认情况下，它使用重新计算，但您可以将数据集的存储级别设置为 MEMORY_AND_DISK 以避免这种情况。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

如果我没有足够的内存，spark 会做什么？的相关文章

Twitter API 与 Scala 2.12 一起使用

我正在使用 Scala 2 12 使用 SBT 构建构建 Spark 3 0 0 流应用程序鉴于所有用于执行此操作的库均适用于 Scala EDIT 我尝试使用库构建时得到的示例输出 object twitter is not a me
pyspark：将 schemaRDD 保存为 json 文件

我正在寻找一种将数据从 Apache Spark 以 JSON 格式导出到各种其他工具的方法我认为一定有一种非常简单的方法来做到这一点示例我有以下 JSON 文件 jfile json key value a1 key2 value
将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助

随机推荐

使用 AWK 中的第一个字段作为文件名

该数据集是一个包含三列的大文件一个部分的 ID 一些不相关的内容和一行文本示例可能如下所示 A01 001 This is a simple test A01 002 Just for exemplary purpose A01 003
将 NServiceBus 与 Asp.Net MVC 2 结合使用

有没有办法将 NServiceBus 与 Asp Net MVC 2 一起使用我想将请求消息从 Asp Net MVC2 应用程序发送到服务该服务处理该消息并回复响应消息有没有办法清楚地做到这一点 NServiceBus 仅支持注册状
Jquery 冲突导致错误

从事具有多种功能的项目例如谷歌翻译图像滑块使用画廊弹出窗口使用阴影框 JavaScript 水平菜单栏 Now we are getting jquery conflict in it and error message suc
从 Docker 容器获取 Mac 地址

是否可以从Docker容器中获取主机的MAC地址并将其写入文本文件中 docker inspect
GCS - Python 下载具有目录结构的 blob

我使用 GCS python SDK 和 google API 客户端的组合来循环启用版本的存储桶并根据元数据下载特定对象 from google cloud import storage from googleapiclient impo
计算负载并避免光标

给出下面的表结构它表示乘客通过门磁上下车的公交路线而且有一个人坐在那辆公共汽车上手里拿着一个记着点数的剪贴板 CREATE TABLE BusLoad ROUTE CHAR 4 NOT NULL StopNumber INT NOT
从 Powershell 调用 AppDomain.DoCallback

这是基于 Stack Overflow 问题如何在新的 AppDomain 中将程序集加载为仅反射 https stackoverflow com questions 35249342 how to load an assembly as
选择 Plsql 中的第二行

假设我有下表 SomeTable id price 如何从此表中选择价格第二高的行注意这必须在 Pl SQL 中以与数据库无关的方式完成是否可以在没有任何循环的情况下做到这一点我知道这是如何使用 Oracle 结构来完成的例如ro
“不要在设计中使用抽象基类；但在建模/分析中”

虽然我在 OOAD 方面有一些经验但我是 SOA 的新手 SOA 设计的指导原则之一是仅使用抽象类进行建模从设计中省略它们抽象的使用有助于建模分析阶段在分析阶段我提出了一个 BankAccount 基类从它派生的专门类是 F
将 Java 7 与官方 Google Appengine Maven 插件结合使用

我在使用时遇到问题官方 Maven 插件 https developers google com appengine docs java tools maven以及带有 Google Appengine 的 Java 7 配置我的项目配置
优先级队列数据结构

假设我有一个优先级队列它按升序删除元素并且存储在该队列中的是元素1 1 3 0 1 递增的顺序是0 then 1 then 3 但是有三个元素1s 当我打电话时remove它会首先删除0 但如果我打电话remove它会再次删除所有三个吗
提高功能性能

我正在编写一个小程序来检查以下问题的解决方案布罗卡的问题 http en wikipedia org wiki Brocard s problem或所谓的棕色数字我首先用 ruby 创建了一个草稿 class Integer def fac
在 Xcode 中创建和编辑 plist 文件的步骤

我想添加密钥对值plist 我不知道如何在 XCode 中添加 plist 文件只是我想将这些详细信息添加到名为的 plist 文件中 Mobile plist Apple iPhone iPod iPad Samsung Galaxy
Java 中可以使用 C# 风格的对象初始化吗？

在 C 中可以这样写 MyClass obj new MyClass field1 hello field2 world field3 new MyOtherClass etc 我可以看到数组初始化可以用类似的方式完成但是在 Java 中
Tensorflow、Keras：在多类分类中，准确率很高，但大多数类别的精度、召回率和 f1 分数为零

一般说明我的代码工作正常但结果是有线的我不知道问题出在网络结构或者我向网络提供数据的方式或其他任何东西我为这个错误苦苦挣扎了几个星期到目前为止我已经改变了损失函数优化器数据生成器等但我无法解决它我很感激任何帮助如果
java.lang.NullPointerException：尝试在空对象引用上调用虚拟方法“boolean java.lang.String.equals(java.lang.Object)”

运行我的项目时出现错误 java lang RuntimeException Unable to start activity ComponentInfo com example olympic com prima olympic Prod
为什么赋值的值总是参数的值？ [复制]

这个问题在这里已经有答案了有人愿意解释一下为什么在旧版本的Ruby中赋值的结果是属性设置方法返回的值但是在Ruby 1 8之后赋值的值总是参数的值该方法的返回值被丢弃在下面的代码中旧版本的 Ruby 会将结果设置为 99 现在
在进行另一次检查之前如何检查变量不为空？

我有这个代码 if App selectedPhrases null App selectedPhrases Count 0 有没有办法可以使用来简化它运算符检查 null 而不是使用连接进行两个不同的检查您可以使用 null 条件
使用 Hibernate 将两个或多个应用程序连接到同一个数据库

我计划构建一个桌面应用程序它将使用 Hibernate 和 MySQL 作为其数据源我想在多台机器上执行桌面应用程序但我希望它们都读写同一个 MySQL 数据库这可能吗我担心的是当两个应用程序尝试访问修改相同信息时的并发问题
如果我没有足够的内存，spark 会做什么？

我是 Spark 新手我发现文档说 Spark 会将数据加载到内存中以使迭代算法更快但是如果我有 10GB 的日志文件而只有 2GB 内存怎么办 Spark 会像往常一样将日志文件加载到内存中吗我认为这个问题在 Spark 网站的 F

如果我没有足够的内存，spark 会做什么？

如果我没有足够的内存，spark 会做什么？ 的相关文章

随机推荐

热门标签

如果我没有足够的内存，spark 会做什么？的相关文章