从 Spark rdd 收集大型数据集的最佳实践是什么？

2023-12-19

我正在使用 pyspark 来处理我的数据，最后我需要使用 rdd.collect() 从 rdd 收集数据。然而，由于内存问题，我的 Spark 崩溃了。我尝试了很多方法，但没有成功。我现在运行以下代码，为每个分区处理一小块数据：

def make_part_filter(index):
    def part_filter(split_index, iterator):
        if split_index == index:
            for el in iterator:
                yield el
    return part_filter


for part_id in range(rdd.getNumPartitions()):
    part_rdd = rdd.mapPartitionsWithIndex(make_part_filter(part_id), True)
    myCollection = part_rdd.collect()
    for row in myCollection:
          #Do something with each row

我当前使用的新代码不会崩溃，但似乎会永远运行。

有没有更好的方法从大型 rdd 中收集数据？

我不知道这是否是最好的方法，但这是我尝试过的最好的方法。不知道比你的好还是差。同样的想法，将其分成块，但是您可以更灵活地设置块大小。

def rdd_iterate(rdd, chunk_size=1000000):
    indexed_rows = rdd.zipWithIndex().cache()
    count = indexed_rows.count()
    print("Will iterate through RDD of count {}".format(count))
    start = 0
    end = start + chunk_size
    while start < count:
        print("Grabbing new chunk: start = {}, end = {}".format(start, end))
        chunk = indexed_rows.filter(lambda r: r[1] >= start and r[1] < end).collect()
        for row in chunk:
            yield row[0]
        start = end
        end = start + chunk_size

示例用法，我想将一个巨大的 RDD 附加到磁盘上的 CSV 文件，而不用整个 RDD 填充 Python 列表：

def rdd_to_csv(fname, rdd):
    import csv
    f = open(fname, "a")
    c = csv.writer(f)
    for row in rdd_iterate(rdd): # with abstraction, iterates through entire RDD
        c.writerows([row])
    f.close()

rdd_to_csv("~/test.csv", my_really_big_rdd)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Dataset

PySpark

collect

从 Spark rdd 收集大型数据集的最佳实践是什么？的相关文章

如何调整 LISTAGG 以支持选择查询中超过 4000 个字符？

Oracle Database 11g 企业版版本 11 2 0 2 0 64 位生产版我有一个以下格式的表格 Name Department Johny Dep1 Jacky Dep2 Ramu Dep1 我需要以下格式的输出 Dep1
在 pyspark 中实现递归算法以查找数据帧中的配对

我有一个火花数据框 prof student df 列出了时间戳的学生教授对每个时间戳有 4 位教授和 4 位学生每个教授学生对都有一个分数因此每个时间范围有 16 行对于每个时间范围我需要找到教授学生之间的一对一配对以
Spark DataFrame 删除重复项并保留第一个

问题在 pandas 中当删除重复项时您可以指定要保留哪些列 Spark Dataframes 中有等效的吗 Pandas df sort values actual datetime ascending False drop dup
获取 Spark 中组的最后一个值

我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20
为什么在 python 控制台中对 SparkSession.builder.getOrCreate() 的调用被视为命令行 Spark-submit？

代替python console我正在尝试创建一个Spark Session 我没有使用pyspark以隔离依赖关系为什么是spark submit命令行提示并生成错误 NOTE SPARK PREPEND CLASSES is set
错误：从列表创建 Spark 数据帧时 TimestampType 无法接受对象

我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
将数据插入多个表 PHP MySQL

我有一个用于存储食谱的基本数据结构它由三个表组成如下所示表 1 食谱 recipe id recipe name 表 2 成分成分 ID 成分名称表 3 配方成分配方 id 成分 id 我在添加新配方时遇到问题想知道插入的最
数据源和数据集的区别

我目前正在开发一个项目其主要任务是读取存储在 SQL 数据库中的数据并以用户友好的形式显示它们使用的编程语言是C 我在 Borland C Builder 6 环境中工作但我认为标题中提出的问题与编程语言或库无关当从数据库读取数据时
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
在 d3v4 堆积条形图中使用 JSON

我找到了一个d3v3堆积条形图示例 http bl ocks org mstanaland 6100713我想使用它因为它使用 json 数据还有一个d3v4规范条形图示例 https bl ocks org mbostock 3886
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容
在会话 cookie 中存储大量数据会产生什么影响？

谁能解释一下在会话中存储大量数据的缺点或给我指出一些阅读材料我也很感兴趣在会话中存储数据和从数据文件读取数据之间是否有任何区别如果您在会话中存储大量数据则输入输出性能会下降因为会有大量读取写入默认情况下 PHP 中的会话存储在
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
将嵌套字典键值转换为 pyspark 数据帧

我有一个 Pyspark 数据框如下所示我想提取 dic 列中的那些嵌套字典并将它们转换为 PySpark 数据帧像这样请让我知道如何实现这一目标 Thanks from pyspark sql import functions a
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT

随机推荐

从所有条件中选择至少具有两个条件的行

我在 R 中有这个数据框我需要仅选择符合以下至少两个条件的行 A gt 5 B gt 5 C gt 5 D gt 5 A B C D 1 0 000000 48 936170 0 000000 29 787234 2 0 000000 7
Java 泛型和静态工厂方法 -- 语法

这是我所得到的 public class Node
我在安装 PyDictionary 时遇到问题

当我输入 pip install PyDictionary 时我保留此错误我还尝试通过输入 python 3 m pip install PyDictionary 来安装该软件包我之前安装了该软件包但在 python 3 10 上没
运算符 >= 重载的奇怪行为

我在 C 中的运算符重载中遇到了奇怪的行为我有一个类我需要检查它的内容是否大于或等于 long double 我重载了 gt 运算符来进行此检查我的声明如下 bool MyClass operator gt long double v
NpgSql 调用函数/例程

给定以下 Postgresql 例程 CREATE OR REPLACE FUNCTION checkemailexists emailaddress text RETURNS boolean LANGUAGE plpgsql AS pri
预期的类型参数，找到的结构[重复]

这个问题在这里已经有答案了我遇到了一个问题我将其简化为以下代码 trait Logger struct DefaultLogger impl Logger for DefaultLogger struct A
在数据库中存储 BitSet 数组的最佳方法？

我有一个数组java util BitSet我想保留在我的数据库中但我不知道最好的方法是什么准确地说我得到了x y true or false我想要存储的每个条目的值我想java util BitSet是一个很好的尝试但我真的不知道
图像悬停时的 CSS 颜色叠加

我尝试过其他答案但还没有适合我的特定设置的答案我无法使用任何 ul li 设置所以请不要这样做我试图让一个稍微透明的橙色层显示在图像上我无法使用绝对定位该网站是基于 Foundation 4 构建的并且是响应式的到目前为止我
为什么即使使用正确的 autoconf，autogen.sh 也会失败？

autogen sh 失败输出显示我需要更高版本的 autoconf 但事实上我有一个 2 6x autoconf 为什么仍然失败 mirror home 4 autogen sh autoreconf i f v autoreconf
Laravel 动态改变连接

如何更改 laravel 的连接表单控制器但连接信息存储在数据库中如数据库管理器我的示例我的数据库中有数据库信息 id driver database name username password host 所以在我的控制器上只需调
使用AES算法加密和解密

我正在为我的应用程序制作一个加密解密模块我跟着本教程 http iamvijayakumar blogspot com 2013 10 android example for encrypt and decrypt html 它没有给出
Oracle 中的日期相减 - 数字还是区间数据类型？

我对 Oracle DATE 和 INTERVAL 数据类型的一些内部工作有疑问根据Oracle 11 2 SQL 参考 http docs oracle com cd E11882 01 server 112 e26088 sql el
mySQL 中更高效的字边界查询

我有一个包含二分之一百万短语的表我正在使用以下查询进行单词匹配 SELECT FROM searchIndex WHERE indexData RLIKE lt Hirt indexData 字段具有 FULLTEXT 索引并且数据类型为
小部件在 WordPress 插件中动态创建

我正在写 WordPress 插件该插件将根据 API 调用的响应创建小部件我的 API 返回一些第三方网站链接的数组因此根据数组的计数我必须创建小部件假设响应有 10 个条目我必须根据响应创建 10 个小部件目前我正在根据
Adobe Illustrator 删除 svg 图像上的类名称。我怎样才能防止这种情况发生？

我有这个 svg 图像
线程消息系统数据库架构设计

我试图准确地实现这里解释的内容创建一个线程化的私人消息系统如 facebook 和 gmail https stackoverflow com questions 6420264 creating a threaded private
python http请求和响应是如何工作的

我是 python 新手我有任务所以我需要扫描 wifi 并将数据发送到服务器下面是我必须发送的格式在浏览器 url 文本框中手动输入时可以正常工作 http 223 56 124 58 8080 ppod web ProcessR
Safari html5 视频全屏尺寸

在 OSX Safari 上单击全屏时的 HTML5 视频标记如何强制视频覆盖全屏而不是显示带有黑色背景的小尺寸可能是原始尺寸好的找到了设置最大高度时需要一些 CSS 回答 video webkit full screen w
除非您更新 Google Play 服务，否则应用程序将无法运行

我对开发还很陌生我的 Google Maps API 工作得很好唯一的障碍是在我的 gradle 依赖项中我必须compile com google android gms play services 9 而不是播放服务 10 0 1
从 Spark rdd 收集大型数据集的最佳实践是什么？

我正在使用 pyspark 来处理我的数据最后我需要使用 rdd collect 从 rdd 收集数据然而由于内存问题我的 Spark 崩溃了我尝试了很多方法但没有成功我现在运行以下代码为每个分区处理一小块数据 def ma

从 Spark rdd 收集大型数据集的最佳实践是什么？

从 Spark rdd 收集大型数据集的最佳实践是什么？ 的相关文章

随机推荐

热门标签

从 Spark rdd 收集大型数据集的最佳实践是什么？的相关文章