从 Pyspark 数据帧创建字典显示 OutOfMemoryError: Java 堆空间

2023-12-23

我见过并尝试过很多existing https://stackoverflow.com/questions/37335/how-to-deal-with-java-lang-outofmemoryerror-java-heap-space-errorStackOverflow 发布了有关此问题的帖子，但没有任何效果。我猜我的 JAVA 堆空间没有我的大型数据集预期的那么大，我的数据集包含 650 万行。我的 Linux 实例包含 4 核 64GB RAM。按照这个建议 https://stackoverflow.com/questions/37335/how-to-deal-with-java-lang-outofmemoryerror-java-heap-space-error我需要修复我的代码，但我认为从 pyspark 数据帧制作字典应该不会很昂贵。如果有其他计算方法，请告诉我。

我只想从我的 pyspark 数据帧创建一个 python 字典，这是我的 pyspark 数据帧的内容，

property_sql_df.show() shows,

+--------------+------------+--------------------+--------------------+
|            id|country_code|       name|          hash_of_cc_pn_li|
+--------------+------------+--------------------+--------------------+
|  BOND-9129450|          US|Scotron Home w/Ga...|90cb0946cf4139e12...|
|  BOND-1742850|          US|Sited in the Mead...|d5c301f00e9966483...|
|  BOND-3211356|          US|NEW LISTING - Com...|811fa26e240d726ec...|
|  BOND-7630290|          US|EC277- 9 Bedroom ...|d5c301f00e9966483...|
|  BOND-7175508|          US|East Hampton Retr...|90cb0946cf4139e12...|
+--------------+------------+--------------------+--------------------+

我想要的是用 hash_of_cc_pn_li 制作一本字典key和 id 作为a list value.

预期输出

{
  "90cb0946cf4139e12": ["BOND-9129450", "BOND-7175508"]
  "d5c301f00e9966483": ["BOND-1742850","BOND-7630290"]
}

到目前为止我所尝试过的

%%time
duplicate_property_list = {}
for ind in property_sql_df.collect(): 
     hashed_value = ind.hash_of_cc_pn_li
     property_id = ind.id
     if hashed_value in duplicate_property_list:
         duplicate_property_list[hashed_value].append(property_id) 
     else:
         duplicate_property_list[hashed_value] = [property_id]

我现在在控制台上得到的内容：

java.lang.OutOfMemoryError：Java堆空间

并显示此错误Jupyter 笔记本输出

ERROR:py4j.java_gateway:An error occurred while trying to connect to the Java server (127.0.0.1:33097)

从 pyspark 数据帧制作字典应该不会很昂贵

就运行时而言确实如此，但这很容易占用大量空间。特别是如果你正在做property_sql_df.collect()，此时您将整个数据帧加载到驱动程序内存中。在 650 万行中，如果每行有 10KB 或 10K 个字符，那么您就已经达到 65GB，而且我们甚至还没有访问字典。

首先，您可以只收集您需要的列（例如，不收集name）。其次，您可以在 Spark 中进行上游聚合，这将节省一些空间，具体取决于有多少id是否有每hash_of_cc_pn_li:

rows = property_sql_df.groupBy("hash_of_cc_pn_li") \
  .agg(collect_set("id").alias("ids")) \
  .collect()

duplicate_property_list = { row.hash_of_cc_pn_li: row.ids for row in rows }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 Pyspark 数据帧创建字典显示 OutOfMemoryError: Java 堆空间的相关文章

为什么下面代码的输出是Thread[main,5,main]

public class test1 public static void main String args TODO Auto generated method stub Thread t Thread currentThread Sys
vm 参数中的 -D 是什么，它表示为什么我们必须在 vm 参数中始终指定 -D

vm 参数中的 D 是什么它表示为什么我们必须在 vm 参数中始终指定 D 有什么标准吗如果是那是什么以及指定的位置 D 设置当前运行的 java 程序可以访问的属性值它允许程序员设置程序运行所需的值但程序不知道这些值是什么因此
selenium webdriver 中的多个程序执行不起作用

Selenium WebDriver 中的多个程序执行不起作用我编写了 1 个 testNG xml 文件和 2 个 java 类我尝试从 xml 文件运行这两个 java 类但这不起作用 XML代码
Servlet 调度程序当前不可用
使用 JNI 从 Java 代码中检索 String 值的内存泄漏

我使用 GetStringUTFChars 从使用 JNI 的 java 代码中检索字符串的值并使用 ReleaseStringUTFChars 释放该字符串当代码在 JRE 1 4 上运行时不会出现内存泄漏但如果相同的代码在 JR
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
PyCharm - 如何挂起所有线程

我们使用 PyCharm 5 0 1 进行多线程调试当它在断点处停止时只有特定线程停止而所有其他线程继续这使得冻结时刻和检查参数值以及其他线程的当前状态变得困难当其中一个线程在断点处停止时是否可以挂起所有线程这在最新的 P
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
如何在Java中模拟引用传递？

我是一个十足的 Java 菜鸟我知道 Java 将所有参数视为按值传递并且还有其他几个线程人们对此进行了解释例如在 C 中我可以这样做 void makeAThree int n n 3 int main int myInt 4 m
javax.xml.bind.JAXBException: 类 *** 及其任何超类在此上下文中均未知

我正在尝试通过 REST Web 服务传递对象以下是我的课程使用一些示例代码解释了我需要的功能 Rest Web 服务类方法 POST Path find Consumes MediaType APPLICATION FORM URLE
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
如何使 JScrollPane 与嵌套 JPanel 一起正常工作？

我正在使用 NetBeans 在 Java 中构建 Swing 应用程序但我遇到布局问题我的主框架包含一个JScrollPane其中包含一个JPanel called contentPanel其中又包含一个JPanel called l
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
使用 Scala 在 Apache Spark 中拆分字符串

我有一个数据集其中包含以下格式的行制表符分隔 Title lt t gt Text 现在对于每个单词Text 我想创建一个 Word Title 一对例如 ABC Hello World gives me Hello ABC Worl
使用正则表达式匹配阿拉伯文文本

我试图使用正则表达式仅匹配阿拉伯语文本但出现异常这是我的代码 txt matches P Arabic 这是例外情况线程 main 中的异常 java util regex PatternSyntaxException 索引 9 附近
获取Java中ResultSet返回的行数

我用过一个ResultSet返回一定数量的行我的代码是这样的 ResultSet res getData if res next System out println No Data Found while res next code t

随机推荐

Python：检查列表中至少一个正则表达式是否与字符串匹配的优雅方法

我有一个 python 中的正则表达式列表和一个字符串有没有一种优雅的方法来检查列表中的至少一个正则表达式是否与字符串匹配我所说的优雅是指比简单地循环所有正则表达式并根据字符串检查它们并在找到匹配项时停止更好的方法基本上我有这个代
跨一对多关系选择 COUNT

对于两张桌子 player and team 对于 1 关系球员与球队您如何计算每个球队有多少球员失败的尝试 SELECT team teamid SELECT COUNT player team FROM player FROM t
Django 注释总和

我正在尝试对查询集中包含多行的列进行简单求和我的直接问题是 a 我该如何设置get queryset 包括一列的总和以及 b 如何访问模板中的该元素下列的this https stackoverflow com questions 86
Python正则表达式匹配：## ##

我正在逐行搜索文件中是否出现 random string 除了多个的情况外它都有效 pattern prog re compile pattern string lala hey there result prog search str
优化 R 中的买入和卖出信号

我需要优化现有的买入和卖出信号就像 r 中的 backtrader 一样 Signal会看起来像 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 where 1 持有 0 买入 1 卖出优化信号后应该是 1 1
Octave信号包安装

我使用的是 Ubuntu 16 04 目前使用 Octave 作为 Matlab 的倒数进行信号处理一切都很好直到我需要使用medfilt1函数来获取中位数 Octave 生成了一个错误报告指出我的系统上未安装信号包浏览了一下后我
如何从 Int 进行转换？到字符串

在 Swift 中我无法通过以下方式将 Int 转换为 String var iString Int 100 var strString String iString 但是我的变量是 Int 吗有错误 Cant invoke init
使用 Webpack 连接并缩小所有 less 文件而不导入它们

我有一个包含大约 20 个独立的较少文件的文件夹我需要通过 Webpack 将它们连接成一个文件并将其存储在我的 dist 文件夹中我当前的Webpack配置文件如下 const path require path const webp
IBOutlet 何时初始化？

我通过 Interface Builder 设置了文本视图的出口文本视图加载正常但是我无法以编程方式访问它的任何属性因为出口始终是nil 什么时候实例化即使在我之后applicationDidFinishLoading被调用它仍然
禁用 JList 单元格选择属性

我正在尝试显示一个array of strings in a JList 然后将其添加到JPanel using Java Swing 我在显示数据时没有问题Jlists 但是我想删除允许用户选择项目的默认属性Jlist 我试图简单地向用户
在无向图中查找循环（boost）并返回其顶点和边

我需要一个在无向图中找到循环提升并返回其顶点和边的函数它只需要返回图中一个周期的顶点边我的问题是使用 boost 来做到这一点的最佳方法是什么我没有使用它的经验我不知道Boost 但是here https stackover
Node.js 事件循环

Node js I O 事件循环是单线程还是多线程如果我有多个 I O 进程节点会将它们放入外部事件循环中它们是按顺序处理首先是最快的还是处理事件循环以同时处理它们以及哪些限制事件循环 Node js 事件循环在单个线程下运行
在 Orchard CMS 中将不同的 CSS 文件添加到不同的页面？

假设 Orchard CMS 中有两个页面主页和关于我们页面我想在主页上使用 RoyalSlider 它有自己的 CSS 文件如何仅将其包含在主页上而不包含在关于我们页面上在 Orchard CMS 中我使用 Contoso
Android 地图 v2 在第二次充气时出现错误

我正在尝试在我的应用程序中使用新的 Android 地图我有一个 FragmentActivity 其布局包含除其他外
scoverage：结合 test 和 it:test 的覆盖率

我用过滤器分割了单元测试和集成测试 lazy val FunTest config it extend Test def funTestFilter name String Boolean name endsWith Spec def un
正则表达式选择多行字符串中的最后一行

我有一个 ANT 脚本它有一个属性其值可以是一行或多行例如财产 prop1 A 12 1 REL B121000 10 18 2011 1700 A 12 1 REL B121001 10 25 2011 6059 A 12 1 R
获取 NullPointerException：尝试在 Android 中读取字节数组时尝试获取 Parcelable 中空数组的长度

我有一个实现 Parcelable 的类我的所有值都通过 writeToParcel 方法设置正常但在构造函数中读取时我遇到了引发 NullPointerException 的字节数组问题 public final class Pro
字符串被分配给列表而没有编译错误[重复]

这个问题在这里已经有答案了据我所知 Java 中泛型的主要目的之一是提供编译时类型安全如果它被编译代码将毫无问题地运行那么为什么下面的代码会被编译呢 public static void main String args Strin
Python与selenium并行执行

我对使用 selenium 在 python 中并行执行感到困惑似乎有几种方法可以解决这个问题但有些似乎已经过时了有一个名为的 python 模块python wd parallel好像有一些功能可以做到这一点但这是 2013 年的
从 Pyspark 数据帧创建字典显示 OutOfMemoryError: Java 堆空间

我见过并尝试过很多existing https stackoverflow com questions 37335 how to deal with java lang outofmemoryerror java heap space er

从 Pyspark 数据帧创建字典显示 OutOfMemoryError: Java 堆空间

从 Pyspark 数据帧创建字典显示 OutOfMemoryError: Java 堆空间 的相关文章

随机推荐

热门标签

从 Pyspark 数据帧创建字典显示 OutOfMemoryError: Java 堆空间的相关文章