Apache Spark 在分区数量较少时内存不足

2024-02-24

我有一个Spark应用程序总是内存不足，集群有两个节点，RAM大约30G，输入数据大小大约几百GB。

该应用程序是一个 Spark SQL 作业，它从 HDFS 读取数据并创建一个表并缓存它，然后执行一些 Spark SQL 查询并将结果写回 HDFS。

最初我将数据分成 64 个分区，结果出现 OOM，然后我使用 1024 个分区解决了内存问题。但为什么使用更多分区可以帮助我解决 OOM 问题呢？

大数据的解决方案是分区（分而治之）。由于并非所有数据都可以放入内存中，并且也无法在单台机器中处理。

每个分区都可以在相对较短的时间内装入内存并进行处理（映射）。对每个分区的数据进行处理后。它需要合并（减少）。这是传统地图缩小 https://ai.google/research/pubs/pub62

将数据拆分到更多分区意味着每个分区变得更小。

[Edit]

Spark 使用称为弹性分布式数据集 (RDD) 的革命概念。

操作有两种类型，transformation和acton
转换是从一个 RDD 映射到另一个 RDD。它是惰性评估的。这些 RDD 可以被视为我们不想得到的中间结果。
当您确实想要获取数据时，请使用操作。这些 RDD/数据可以按照我们想要的方式处理，就像采取顶部失败一样。
Spark在执行之前会分析所有的操作并创建一个DAG（有向无环图）。
当操作被触发时，Spark 从源 RDD 开始计算。然后忘记它。

_{(source: cloudera.com https://blog.cloudera.com/wp-content/uploads/2014/03/spark-devs1.png)}

我为 YouTube 上的演示制作了一个小截屏视频Spark让大数据火花四射 https://www.youtube.com/watch?v=bLeLXIbULN0.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Apache Spark 在分区数量较少时内存不足的相关文章

如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研
为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
使用什么工具来可视化逻辑和物理查询计划？

我很熟悉explain 还有 WebUI 我很好奇是否有任何工具可以生成优化前后逻辑物理计划的树结构图像也就是返回的信息explain 作为图像 PNG 或 JPG 之类的图片我自己从未听说过但您可以使用 Web UI 查看物理计划
四舍五入数据框中的所有列 - 两位小数 pyspark

我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入不是每一列
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计

随机推荐

从给定字符串中提取子字符串

我有以下数据 1 MAXO INSTR INTERFACE 2 MAXIS VENDOR INTERFACE 3 MAXIMOS EMPS INTERFACE2 我需要提取位于 PL SQL 中两个下划线之间的字符串 INPUT EXPEC
基于 TIMESTAMP 列的分区的 BigQuery 分区过期

我正在尝试在已设置基于 TIMESTAMP 列的分区的表上测试分区过期时间问题是分区过期似乎不起作用这是我所做的 1 创建带有TIMESTAMP列分区以及60秒过期时间的表 bq mk table project id cool pro
如何使用 IMAP 唯一标识 Java 邮件消息？

Java Mail 中的 IMAP 消息由其相对位置编号从 1 开始标识 refer http docs oracle com javaee 1 4 api javax mail Message html getMessageNumbe
使用 UWP 将文件写入“下载”文件夹会进入独立存储吗？

我需要在 Windows 10 上的 UWA 下载文件夹中创建一个文件并将现有文件的内容复制到其中我使用以下代码 StorageFile cleanFile await Windows Storage DownloadsFolder C
使用 PostgreSQL 编译静态 Qt 5.10.0 时出错

我正在尝试在 Windows 7 上使用 mingw 编译 Qt 5 10 0 和 PostgreSQL 10 或 9 2 但同样的错误但是当我包含 psql include 和 lib 目录时在 mingw32 make 之后我总是
jQuery 获取表的当前 rowIndex

单击时我的表格单元格会突出显示我需要找到突出显示的单元格的 rowIndex 我尝试这样做 ui state highlight index Results to 0 我也尝试过这个 td click function var row i
Next js 网站的重新加载重定向到 Apache 服务器上的主页

我有一个静态的 Next js 网站托管在 Apache 服务器控制面板上起初当我重新加载页面时它给了我一个 404 错误但现在当我重新加载时它总是转到主页我尝试包含 htaccess文件放在我的公共文件夹中但它不起作用这
如何使用 JSON 对象初始化 TypeScript 对象？

我从对 REST 服务器的 AJAX 调用接收到一个 JSON 对象该对象具有与我的 TypeScript 类匹配的属性名称这是这个问题 https stackoverflow com questions 22875636 how do
Laravel 迁移到 mix 会删除无效的 NODE_OPTIONS 环境变量：不允许 --openssl-legacy-provider

当我运行yarn run dev时它编译没有任何问题但是当我运行yarn run prod时出现以下错误 Mix Compiled with some errors in 21 47s ERROR in js app js js ap
Selenium Webdriver C# element.Enabled 当元素仍处于禁用状态时评估为 true

我的自动化测试过去运行顺利但我们将 QA 环境移至不同的服务器现在测试失败因为它不断尝试单击仍在加载且变灰禁用的元素以下是在以前的服务器上运行良好的部分代码 while less than 7 seconds if driver
Angular2/Ionic2 中的 Google Drive APIgapi.client.drive

我编写 Angular2 Ionic2 应用程序来显示列表并将文件上传到 Google Drive 使用 Google 登录工作正常但是gapi client drive未定义我应该做什么来解决它或者有方法代替我安装了 npm ins
重用意图安全吗？

Android 文档将 Intent 定义为包含要执行的操作的抽象描述的信息包这表明您应该能够在需要时多次重用单个 Intent 对象但我还没有看到任何示例表明这种情况可以安全执行是否有任何理由不执行以下操作 private fi
C# 运行时错误：“DataGridViewComboBoxCell 值无效”

我花了一天的大部分时间来解决这个问题但解决方案仍然困扰着我我的 Winform 应用程序包含一个DataGridView其中两列是ComboBox下拉列表奇怪的是 DataGridView似乎填充正确但在填充时或每当有鼠标悬停或看似
仅运行 ansible playbook 中的一项任务和处理程序

如何从 Ansible playbook 运行单个任务以及在该任务成功完成时收到通知的处理程序同时跳过相关 playbook 中的所有其他任务目前我执行以下操作 ansible playbook start at task task1
在空手道和放心之间选择

尝试在 Karate 框架和 Rest Assured 之间进行选择以实现 API 自动化其中包括 Rest API 和 GraphQL 我们还可以增强框架来执行 UI 自动化我经历了寻找的一般过程 Karate 是为 GraphQL
Google Drive API 进度条错误

我编写了以下代码来将文件上传到我的 Google 云端硬盘帐户它工作得很好然后我尝试添加一些上传进度跟踪器但遇到了一些问题它可以工作但进度几乎立即达到 100 远远早于上传完成 export async function uplo
使用常量引用删除引用

对于参数类 C 我希望始终获得原始类型而不管指针 const 或引用修饰符如何 template
(gcloud.app.deploy) 错误响应：[13] 意外错误

当我尝试将 Spring Boot 应用程序部署到谷歌云时出现以下错误 gcloud app deploy Error Response 13 Unexpected Error 我正在使用 com google cloud tools a
提交PHP后保留表单中的值

我从控制器调用这些函数来获取表单和表单中的值我的问题是提交失败后如何保留表单中的值我尝试过这样的事情
Apache Spark 在分区数量较少时内存不足

我有一个Spark应用程序总是内存不足集群有两个节点 RAM大约30G 输入数据大小大约几百GB 该应用程序是一个 Spark SQL 作业它从 HDFS 读取数据并创建一个表并缓存它然后执行一些 Spark SQL 查询并将结果写回

Apache Spark 在分区数量较少时内存不足

Apache Spark 在分区数量较少时内存不足 的相关文章

随机推荐

热门标签

Apache Spark 在分区数量较少时内存不足的相关文章