当 Spark 主内存无法容纳文件时，Spark 如何读取大文件（PB）

2024-04-08

在这些情况下大文件会发生什么？

1）Spark从NameNode获取数据的位置。 Spark 是否会同时停止，因为根据 NameNode 的信息，数据大小太长？

2）Spark按照datanode块大小对数据进行分区，但所有数据不能存储到主内存中。这里我们没有使用StorageLevel。那么这里会发生什么呢？

3）Spark对数据进行分区，一些数据将存储在主内存上，一旦主内存存储的数据再次处理，Spark将从磁盘加载其他数据。

首先，Spark 仅在某个操作（例如count, collect or write）叫做。一旦调用某个操作，Spark 就会将数据加载到分区- 并发加载分区的数量取决于可用核心的数量。所以在 Spark 中你可以认为 1 个分区 = 1 个核心 = 1 个任务。请注意，所有并发加载的分区都必须适合内存，否则您将遇到 OOM。

假设您有多个阶段，Spark 将仅在已加载的分区上运行第一个阶段的转换。一旦它对加载的分区中的数据应用转换，它将输出存储为随机数据，然后读取更多分区。然后，它对这些分区应用转换，将输出存储为随机数据，读取更多分区等等，直到读取所有数据。

如果您不应用任何转换，而只执行例如count，Spark仍会读入分区中的数据，但它不会在您的集群中存储任何数据，如果您执行以下操作count再次它会再次读入所有数据。为了避免多次读入数据，您可以调用cache or persist在这种情况下火花will尝试将数据存储在您的集群中。在cache（这与persist(StorageLevel.MEMORY_ONLY)它将把所有分区存储在内存中 - 如果它不适合内存，您将得到 OOM。如果你打电话persist(StorageLevel.MEMORY_AND_DISK)它将尽可能多地存储在内存中，其余的将存储在磁盘上。如果磁盘上放不下数据，操作系统通常会杀死你的工作人员。

请注意，Spark 有自己的小型内存管理系统。分配给 Spark 作业的部分内存用于保存正在处理的数据，部分内存用于存储（如果您调用）cache or persist.

我希望这个解释有帮助:)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

当 Spark 主内存无法容纳文件时，Spark 如何读取大文件（PB）的相关文章

Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而

随机推荐

FirebaseUI Auth - Facebook 登录错误：来自 Facebook 的 debug_token 响应失败

我正在尝试集成 FirebaseUI Auth 库 Google 登录和电子邮件登录工作正常但我在设置 Facebook 登录时遇到问题这是我的代码 user firebaseAuth getCurrentUser if user nu
跟踪 vb.net 中函数调用的持续时间

在我们的 VB6 应用程序中我们添加了一些实用函数来跟踪函数所花费的时间我们这样做是为了跟踪性能瓶颈基本上它的工作原理是有两个实用函数 StartTickCount 和 EndTickCount 您将在每个函数中传递函数名称函数将
如何让我的 PUT_LINE 语句显示在 TOAD 中？

此代码可以编译但在 TOAD 中不会显示 hi wo 输出 CREATE OR REPLACE PROCEDURE AdelTest IS tmpVar NUMBER BEGIN DBMS OUTPUT ENABLE 100 in INT
单击链接后，javascript何时停止在页面上运行？

我有一个运行各种 javascript 代码的页面包括调用setTimeout 如果用户单击链接导航到另一个页面该页面上的 javascript 在什么时候停止运行因此我的 setTimeout 调用的代码将不再被调用例如单击链接
我如何使用 Android EffectFactory 类？

我厌倦了开发带有图像处理的示例应用程序在我的应用程序中我需要添加一些color effects Grayscale sepia 在我的位图上我参考了开发人员文档Doc 1 http developer android com refer
react-native\react.gradle' 不存在

我使用 React Native 创建了一个应用程序并且正在尝试生成 apk 完成文档中的所有操作后http facebook github io react native docs signed apk android html con
雅罗斯拉夫斯基的双主元快速排序算法

我正在研究我发现的双枢轴快速排序here http aofa2013 lsi upc edu slides Nebel pdf 幻灯片第 20 页比较雅罗斯拉夫斯基平均需求 1 9 n ln n 经典快速排序需要 2 n ln n 比较
多个 jQuery-UI 滑块的合计

我正在尝试实现一个有 4 个 jQuery UI 滑块的页面并且我想让所有 4 个滑块的总数永远不会超过 400 我不介意以哪种方式实现这一点它可以从 0 开始一旦您更改 1 个滑块剩余的可用总数就会减少或者将滑块设置为超过最大值
Dart 扩展了 Map 以便于延迟加载

我正在尝试将数据从服务器延迟加载到地图中出于这个原因我想向 Map 添加功能以便当键不存在时会进行调用以获取值我尝试的是这样的 class LazyMap extends Map use length for now When t
保存大图像 - 光栅问题

我已经问过如何保存大图像的问题我认为我走在正确的轨道上但我仍然需要一些建议我有一个 12000 x 12000 的图像我需要将其另存为 png 无法使用 BufferedImage 我已经被建议使用 RenderedImage 接口
使 MediaController 显示而不隐藏

我尝试使用 MediaController 来播放音乐我希望 MediaController 出现直到按下后退按钮现在我尝试了下面的代码 MediaController mediaController new MediaContr
vim colorchem 显示不正确的颜色

我刚刚抓住了 Ultimate Vim Distribution http vim spf13 com 它附带了一堆颜色方案由于某种原因在我的 vimrc 中设置颜色方案例如 colorscheme 公司会导致与颜色方案实际定义的颜
为什么这个语句在 java 中不起作用 x ^= y ^= x ^= y;

int x 1 int y 2 x y x y 我期望这些值被交换但它给出 x 0 和 y 1 当我用C语言尝试时它给出了正确的结果您的陈述大致相当于此扩展形式 x x y y x x y 与 C 不同在 Java 中保证二元运算
使用 ng-repeat 和过滤器时数组中对象的 $index

我对 Angular 相当陌生并且能够在某种程度上解决问题但我似乎无法找到这个场景的答案我有一系列对象我正在从 firebase 中将其拉下来我对对象使用 ng repeat 然后相应地显示数据我试图将索引作为路由参数传递给编
auto foo(...) ->decltype(this) 有一些解决方法吗？

我有下一堂课并尝试声明成员函数该函数将返回指向该类型的指针但下一个代码 template
Django Admin内联递归ManyToMany

我有以下模型其自身具有多对多关系 class Ticket models Model STATUS 0 Open 1 Closed status models SmallIntegerField default 0 choices STA
将指针从基类型转换为子类型

我正在为我的一个项目构建一个简单的游戏设计我有以下课程 class Character public virtual void Display virtual void SetParameters char param class Non
测量函数调用的 CPU 周期

我正在寻找一种方法来测量线程上的函数调用所占用的 cpu 周期伪代码示例 void HostFunction var startTick CurrentThread CurrentTick does not exist ChildFunc
为什么我的 R 中的“Fizz Buzz”测试不起作用？

我听说这是一个常见的面试问题请问这里有什么想法谢谢 for i in 1 100 if i 15 0 print fizzbuzz else if i 3 0 print fizz else if i 5 0 print buzz el
当 Spark 主内存无法容纳文件时，Spark 如何读取大文件（PB）

在这些情况下大文件会发生什么 1 Spark从NameNode获取数据的位置 Spark 是否会同时停止因为根据 NameNode 的信息数据大小太长 2 Spark按照datanode块大小对数据进行分区但所有数据不能存储到主内存中

当 Spark 主内存无法容纳文件时，Spark 如何读取大文件（PB）

当 Spark 主内存无法容纳文件时，Spark 如何读取大文件（PB） 的相关文章

随机推荐

热门标签

当 Spark 主内存无法容纳文件时，Spark 如何读取大文件（PB）的相关文章