执行许多数据帧连接时出现 PySpark OutOfMemoryErrors

2023-12-31

关于这个问题的帖子很多，但没有一个回答我的问题。

我遇到了OutOfMemoryError在 PySpark 中尝试将许多不同的数据帧连接在一起。

我的本地机器有 16GB 内存，我的 Spark 配置如下：

class SparkRawConsumer:

    def __init__(self, filename, reference_date, FILM_DATA):
        self.sparkContext = SparkContext(master='local[*]', appName='my_app')
        SparkContext.setSystemProperty('spark.executor.memory', '3g')
        SparkContext.setSystemProperty('spark.driver.memory', '15g')

显然有很多很多关于 Spark 中 OOM 错误的帖子，但基本上大多数都说要增加你的内存属性。

我本质上是从 50-60 个较小的数据帧执行连接，这些数据帧有两列uid, and data_in_the_form_of_lists（通常，它是 Python 字符串的列表）。我要加入的主数据框有大约 10 列，但还包含uid专栏（我正在加入）。

我只尝试连接 1,500 行数据。但是，当显然所有这些数据都可以放入内存时，我会频繁遇到 OutOfMemory 错误。我通过查看存储中的 SparkUI 来确认这一点：

在代码中，我的连接如下所示：

# lots of computations to read in my dataframe and produce metric1, metric2, metric3, .... metric 50
metrics_df = metrics_df.join(
                self.sqlContext.createDataFrame(metric1, schema=["uid", "metric1"]), on="uid")

metrics_df.count()
metrics_df.repartition("gid_value")
metrics_df = metrics_df.join(
                self.sqlContext.createDataFrame(metric2, schema=["uid", "metric2"]),
                on="gid_value")

metrics_df.repartition("gid_value")
metrics_df = metrics_df.join(
                self.sqlContext.createDataFrame(metric3, schema=["uid", "metric3"]),
                on="uid")

metrics_df.count()
metrics_df.repartition("gid_value")

Where metric1, metric2 and metric3是我在连接之前转换为数据帧的 RDD（请记住，实际上有 50 个较小的 RDD）metric我正在加入 dfs）。

I call metric.count()强制评估，因为它似乎有助于防止内存错误（否则在尝试最终收集时我会遇到更多驱动程序错误）。

这些错误是不确定的。我没有看到它们始终出现在我的连接中的任何特定位置，有时似乎出现在我的最后一个位置metrics_df.collect()调用，有时在较小的连接期间。

我真的怀疑任务序列化/反序列化存在一些问题。例如，当我查看典型阶段的事件时间线时，我发现其中大部分由任务反序列化占用：

我还注意到垃圾收集时间很大：

垃圾收集是导致内存错误的问题吗？还是任务序列化？

编辑回答评论问题

我一直在将 Spark 作业作为更大的 PyCharm 项目的一部分来运行（因此 Spark 上下文被包裹在一个类中）。我使用以下 Spark 提交重构了代码以将其作为脚本运行：

spark-submit spark_consumer.py \
  --driver-memory=10G \
  --executor-memory=5G \
  --conf spark.executor.extraJavaOptions='-XX:+UseParallelGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps'

我遇到了类似的问题并且它适用于：
火花提交：

spark-submit --driver-memory 3g\
            --executor-memory 14g\
            *.py

Code:

sc = SparkContext().getOrCreate()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

执行许多数据帧连接时出现 PySpark OutOfMemoryErrors 的相关文章

嵌套函数中的变量作用域

有人可以解释为什么以下程序失败 def g f for in range 10 f def main x 10 def f print x x x 1 g f if name main main 带有消息 Traceback most re
如何使用 tkinter 使用网格功能显示不同的图像？

我想使用显示文件夹中的图像grid 但是当我尝试使用以下代码时我得到了迭代单个图像的输出 My code def messageWindow win Toplevel path C Users HP Desktop dataset for
使用 keras 澄清 Yolo v3 模型输出

我将 yolo v3 模型与 keras 一起使用该网络为我提供了形状如下的输出容器 1 13 13 255 1 26 26 255 1 52 52 255 所以我找到了这个link https www cyberailab com ho
使用python编辑html，但是lxml将漂亮的html实体转换为奇怪的编码

我正在尝试使用 python 带有 pyquery 和 lxml 来更改和清理一些 html Eg html div p It 146 s a spicy meatball p div lxml html clean 函数 clean ht
让 python 脚本打印到终端而不作为标准输出的一部分返回

我正在尝试编写一个返回值的 python 脚本然后我可以将其传递给 bash 脚本问题是我想要在 bash 中返回一个单一值但我想要一些东西一路打印到终端这是一个示例脚本我们称之为 return5 py usr bin env p
将 numpy 数组及其大小写入二进制文件

我需要将 2D numpy 数组写入文件包括其尺寸以便我可以从 C 程序中读取它并创建相应的数组我编写了一些简单的代码来保存数组并且可以从 C 读取它但是如果我尝试先写入数组的大小它总是会给我一个错误这是我的简单 python
FastAPI UploadFile 与 Flask 相比慢

我创建了一个端点如下所示 app post report upload def create upload files files UploadFile File try with open files filename wb as wf
在Python中，如何通过去掉括号和大括号来打印Json

我想以一种很好的方式打印 Json 我想去掉方括号引号和大括号只使用缩进和行尾来显示 json 的结构例如如果我有一个像这样的 Json A A1 1 A2 2 B B1 B11 B111 1 B112 2 B12 B121 1
关于具有自定义损失的 3 输出 ANN 的加权

我正在尝试定义一个自定义损失函数它在回归模型中接收 3 个输出变量 def custom loss y true y pred y true c K cast y true float32 Shape batch size 3 y pre
如何使用 Python 在表单中选择选项？

我想知道如何以格式如下的形式选择选项 td align left td
私有属性，但却是一个神秘的领域

我想将属性设为私有但带有 pydantic 字段 from pydantic import BaseModel Field PrivateAttr validator class A BaseModel a str I want a py
使用张量流导出神经网络的权重

我使用张量流工具编写了神经网络一切正常现在我想导出神经网络的最终权重以制定单一的预测方法我怎样才能做到这一点您需要在训练结束时使用以下命令保存模型tf train Saver https www tensorflow org ver
类型错误：无法连接“str”和“int”对象有人可以帮助新手使用他们的代码吗？

感谢任何帮助还有任何重大缺陷或您在格式或基本方面看到的任何重大缺陷请指出谢谢 day raw input How many days locations raw input Where to days str day location
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
如何通过 API Gateway 使用事件调用类型调用 Lambda 函数？

文件说默认情况下 Invoke API 采用 RequestResponse 调用类型您可以选择通过将 Event 指定为 InitationType 来请求异步执行因此我可以发送到我的函数 python 的就是到处都是 Inspi
Docker Python 脚本找不到文件

我已经成功构建了一个 Docker 容器并将应用程序的文件复制到 Dockerfile 中的容器中但是我正在尝试执行引用输入文件在 Docker 构建期间复制到容器中的 Python 脚本我似乎无法弄清楚为什么我的脚本告诉我它无
基于 Web 请求在 Airflow 上运行作业

我想知道是否可以在通过 HTTP 收到请求时执行气流任务我对 Airflow 的调度部分不感兴趣我只是想用它来代替芹菜因此示例操作如下所示用户提交一份表格请求某些报告后端接收请求并向用户发送请求已收到的通知然后后端使用 Ai
从 HDF5 文件中删除信息

我意识到 SO 用户以前曾问过这个问题question https stackoverflow com questions 1124994 removing data from a hdf5 file rq 1但它是在 2009 年被问到的
Python 子进程：无法转义引号

我知道以前曾问过类似的问题但它们似乎都是通过重新设计参数的传递方式即使用列表等来解决的但是我这里有一个问题因为我没有这个选项有一个特定的命令行程序我使用的是 Bash shell 我必须向其传递带引号的字符串它不能不被引用

随机推荐

crossfilter中的reduceAdd、reduceSum、reduceRemove函数是什么？应该如何使用它们？

有人可以用简单的术语解释一下reduce函数如何及其参数reduceAdd reduceSum reduceRemove工作于crossfilter 请记住映射缩减通过特定维度的键来缩减数据集例如让我们使用带有记录的交叉过滤器实例 n
通过python上传JSON到谷歌云存储

我正在尝试上传 JSON 我必须到谷歌云存储我可以手动执行此操作因此我知道它可以工作但现在想编写一个自动执行此操作的 python 脚本 import boto import gcs oauth2 boto plugin import
具有自定义 JAX-B 绑定的 JAX-WS MarshalException：无法将类型“java.lang.String”封送为元素

我似乎对 Jax WS 和 Jax b 协同工作有疑问我需要使用一个具有预定义 WSDL 的 Web 服务执行生成的客户端时我收到以下错误 javax xml ws WebServiceException javax xml bind
Visual Studio 实体框架向导在 MySQL 上崩溃[重复]

这个问题在这里已经有答案了在使用实体框架向导对 MySQL 连接执行任何操作期间它会在第二页上崩溃而不会出现任何错误问题与中相同实体框架向导在 MySQL 上崩溃 https stackoverflow com questions
Git-SVN 清除身份验证缓存

如何让 git svn 忘记 svn 身份验证详细信息我们有一台运行 Windows Server 2008 的配对机器在该机器上有一个 git 存储库并且我们签入到中央 subversion 存储库我希望 git 在每次签入时提示
嵌套目录中的 Symfony 2 项目

我需要在生产服务器上的嵌套目录中部署 Symfony 2 项目实际上这意味着所有 URL 都以 subdirectory 路径为前缀即 http host com subdirectory project web app php su
导入错误：没有名为 xlwt 的模块

我的系统 Windows Python 2 7 我下载了一个包并想将其包含在我的脚本中解压包后这是我的文件夹结构 Work xlwt 0 7 3 contains a setup py xlwt 包含 init py除其他外我的脚本从
如何从Python日期时间对象中删除秒？ [复制]

这个问题在这里已经有答案了我有一个 python 日期时间对象我想在网站上显示它但是时间以 hh mm ss 格式显示我想以 hh mm 格式显示它我已尝试按照以下方式使用替换方法 message timestamp replac
使用带有附加属性的“styled()”MUI 系统实用程序 (Typescript)

我正在使用 MUI System v5 开发一个新项目我在用着styled 这里的实用程序不是样式组件用于设计和创建简单的 UI 组件该项目采用 TypeScript 我现在有很多困难因为我不知道是否以及如何将道具传递给这些组件
jquery 中的 .clone() 方法不复制值[重复]

这个问题在这里已经有答案了可能的重复没有内容的文本框的 Jquery 克隆 https stackoverflow com questions 4366159 jquery clone of a textbox without the
用于将文本复制到剪贴板的独立于平台的工具

我正在尝试编写一个函数将字符串参数复制到剪贴板我打算在我一直在编写的 Python 脚本中使用它这是我到目前为止所拥有的在另一个堆栈溢出帖子中找到了大部分此片段 from tkinter import Tk def copy to c
用Python在文件中间插入行？

有没有办法做到这一点假设我有一个文件其中包含如下名称列表 Alfred Bill Donald 我如何在第 x 行本例中为 3 插入第三个名字 Charlie 并自动将所有其他名字发送到一行我见过其他类似的问题但没有得到有用的答案
PUT 和 DELETE HTTP 请求方法有什么用处？

我从未使用过 PUT 或 DELETE HTTP 请求方法我的倾向是当系统我的应用程序或网站的状态可能不受影响如产品列表时使用 GET 而当系统状态如下订单受到影响时我倾向于使用 POST 这两个不是总是足够的还是我错过
布尔玛旋转木马没有响应

我正在尝试将 bulma carousel 合并到我的 React 应用程序中但它似乎不起作用我尝试使用它来实现它布尔玛旋转木马 https wikiki github io components carousel 这个文档也是如此但
Blazor 服务器客户端中的引导工具提示问题

I am trying to get the formatting right for the tooltips but i cant figure out how to The code below works perfectly
在未安装 Tensorflow 的情况下运行 Tensorflow 模型

我有一个运行良好的 TF 模型是用 Python 和 TFlearn 构建的有没有办法在另一个系统上运行这个模型而不需要安装 Tensorflow 它已经经过预先训练所以我只需要通过它运行数据即可我知道 tfcompile 在这里发
QLineEdit python 方式大写输入

我使用 QT Designer 绘制了一个 UI 但发现没有参数可供我将 QLineEdit 输入设置为大写经过一些在线搜索后我只看到了极少数满足我需求的结果但所有结果都是用 Qt 编写的例如这个link http www qtf
Spring Initializr 项目导致不支持的类文件主要版本 64

当我使用创建一个新项目时弹簧初始化 https start spring io Gradle 不会构建该项目我使用 IntelliJ IDEA 错误信息是 Exception is org gradle cache CacheOpenEx
从 Scipy 稀疏矩阵中获取唯一行

我正在 python 中处理稀疏矩阵我想知道是否有一种有效的方法来删除稀疏矩阵中的重复行并且只保留唯一的行我没有找到与之相关的函数并且不知道如何在不将稀疏矩阵转换为密集矩阵并使用 numpy unique 的情况下执行此操作没有快
执行许多数据帧连接时出现 PySpark OutOfMemoryErrors

关于这个问题的帖子很多但没有一个回答我的问题我遇到了OutOfMemoryError在 PySpark 中尝试将许多不同的数据帧连接在一起我的本地机器有 16GB 内存我的 Spark 配置如下 class SparkRawCons

执行许多数据帧连接时出现 PySpark OutOfMemoryErrors

编辑回答评论问题

执行许多数据帧连接时出现 PySpark OutOfMemoryErrors 的相关文章

随机推荐

热门标签