pySpark将mapPartitions的结果转换为spark DataFrame

2024-02-25

我有一项工作需要在分区的 Spark 数据帧上运行，该过程如下所示：

rdd = sp_df.repartition(n_partitions, partition_key).rdd.mapPartitions(lambda x: some_function(x))

结果是rdd of pandas.dataframe,

type(rdd) => pyspark.rdd.PipelinedRDD
type(rdd.collect()[0]) => pandas.core.frame.DataFrame

and rdd.glom().collect()返回结果如下：

[[df1], [df2], ...]

现在我希望将结果转换为spark dataframe，我所做的方式是：

sp = None
for i, partition in enumerate(rdd.collect()):
    if i == 0:
        sp = spark.createDataFrame(partition)
    else:
        sp = sp.union(spark.createDataFrame(partition))

return sp

然而，结果可能是巨大的rdd.collect()可能超出驱动程序的内存，所以我需要避免collect()手术。有办法解决这个问题吗？

提前致谢！

如果你想继续使用 rdd api。mapPartitions接受一种类型的迭代器并期望另一种类型的迭代器作为结果。 pandas_df 不是迭代器类型mapPartitions可以直接处理。如果你必须使用 pandas api，你可以从创建一个合适的生成器pandas.iterrows

这样你的整体mapPartitions结果将是行类型的单个 rdd，而不是 pandas 数据帧的 rdd。这样的 rdd 可以通过动态模式发现无缝转换为数据帧

from pyspark.sql import Row

def some_fuction(iter):
  pandas_df = some_pandas_result(iter)
  for index, row in pandas_df.iterrows():
     yield Row(id=index, foo=row['foo'], bar=row['bar'])


rdd = sp_df.repartition(n_partitions, partition_key).rdd.mapPartitions(lambda x: some_function(x))
df = spark.createDataFrame(rdd)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

pySpark将mapPartitions的结果转换为spark DataFrame 的相关文章

xlrd 读取 xls XLRDError：不支持的格式或损坏的文件：预期的 BOF 记录；找到“\r\n”

这是代码 xls open workbook data xls 作为回报 File home woles P2 fin fin apps data container importer py line 16 in import data x
合并数据框中的值以写入 Excel

我有一个看起来像的数据框 column1 column2 column3 colum4 column5 1 r n 1 r s 1 r n 2 r s 3 r n 3 2 r n 1 r s 1 r n 4 r s 4 r n 5 3 r
如何在 kubernetes 上使多个 pod 相互通信

我是 Kubernetes 新手我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库我将映像部署在多个 Pod 中状态显
使用 Python 的 optparse 模块时如何遵守 PEP 257 文档字符串？

根据PEP 257 http www python org dev peps pep 0257 multi line docstrings命令行脚本的文档字符串应该是它的使用消息脚本的文档字符串 a 独立程序应该可用作为其使用消息
如何在不破坏默认行为的情况下覆盖 __getattr__ ？

我如何覆盖 getattr https docs python org 3 reference datamodel html object getattr 类的方法而不破坏默认行为压倒一切 getattr 应该没事 getattr 仅作为
在Python中迭代文件对象不起作用，但readlines()可以，但效率低下

在下面的代码中如果我使用 for line in fin 它只对 a 执行但如果我使用 wordlist fin readlines for line in wordlist 然后它执行 a thru z But readlines 立
检查多维 numpy 数组的所有边是否都是零数组

n 维数组有 2n 个边 1 维数组有 2 个端点 2 维数组有 4 个边或边 3 维数组有 6 个 2 维面 4 维数组有 8 个边 ETC 这类似于抽象 n 维立方体发生的情况我想检查 n 维数组的所有边是否仅由零组成以下是边由零组
Highcharts 奇怪的分组行为

我正在使用延迟加载 http www highcharts com stock demo lazy loading加载 OHLC 数据的方法在服务器端我使用 Python MySQL 并有 4 个包含 OHLC 数据的表时间间隔为 5
__getitem__、__setitem__ 如何处理切片？

我正在运行 Python 2 7 10 我需要拦截列表中的更改我所说的更改是指在浅层意义上修改列表的任何内容如果列表由相同顺序的相同对象组成则列表不会更改无论这些对象的状态如何否则它会更改我不需要找出来how列表已经改变
使用 OpenCV 进行相机校准 - 如何调整棋盘方块大小？

我正在使用 OpenCV Python 示例开发相机校准程序来自 OpenCV 教程 http opencv python tutroals readthedocs io en latest py tutorials py calib3d
四舍五入数据框中的所有列 - 两位小数 pyspark

我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入不是每一列
如何将字符串方法应用于数据帧的多列

我有一个包含多个字符串列的数据框我想使用对数据帧的多列上的系列有效的字符串方法我希望这样的事情 df pd DataFrame A 123f 456f B 789f 901f df Out 15 A B 0 123f 789f 1 45
如何在 Python 中将 EXR 文件的 float16 转换为 uint8

我正在使用 OpenEXR 读取 Python 中的 EXR 文件我有带有半数据 float16 的 R G 和 B 通道我尝试使用 Numpy 将数据从 float16 转换为 uint8 0 255 颜色但没有成功 rCh get
当我打印“查询”时获取 PY_VAR1

我正在制作一个简单的网络抓取代码当我尝试打印一个值时它给了我其他东西 def PeopleSearch query SearchTerm query what is query print str query SearchTerm St
如何使用 Selenium Webdriver (Python) 在上下文菜单中选择“将图像另存为...”来保存图像

我正在尝试使用 selenium webdriver 将特定图像保存到目录中我希望通过模拟右键单击 img 元素并选择将图像另存为来实现此目的使用以下代码我可以打开上下文菜单但无法选择正确的选项 browser WebDriver
使用 plone.api 创建文件的 Python 脚本在设置文件时出现错误 WrongType

Dears 我正在创建一个脚本python来在Plone站点中批量上传文件安装是UnifiedInstaller Plone 4 3 10 该脚本读取了一个txt 并且该txt以分号分隔在新创建的项目中设置文件时出现错误下面是脚本 f
在Python中将罗马数字转换为整数

根据 user2486 所说这是我当前的代码 def romanMap map M 1000 CM 900 D 500 CD 400 C 100 XC 90 L 50 XL 40 X 10 IX 9 V 5 V 4 I 1 return
在哪里可以找到Python内置序列类型的时间和空间复杂度

我一直无法找到此信息的来源无法亲自查看 Python 源代码来确定这些对象是如何工作的有谁知道我可以在网上找到这个吗结帐时间复杂度 http wiki python org moin TimeComplexitypy dot org
使用 Python 进行 Google 搜索网页抓取 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近为了工作中的一些项目学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取我发现几
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove

随机推荐

在现有播放器上启用 YouTube API

我有一个嵌入式 YouTube 视频我希望应用 YouTube API 我使用 jQuery 添加 url 参数如下所示 demo http jsfiddle net VVEY9 document ready function var
java字符串日期转换

我想在存储字符串之前将其转换为日期并且我使用了 SimpleDateFormat format new SimpleDateFormat yyyy mm dd Date returnDate format parse date 当我使用样
在 MS SQL Server 2008 中创建序列

我编写了一个程序可以在其中请求身份证有不同类型的身份证红蓝绿当提出请求时程序应该生成标识号数字数字范围取决于所请求的卡 Red Card 1 50000 Blue Card 50001 100000 Green Card
为什么 VS Code 在 java 文件中显示 System.out.println() 的这些标签或参数名称？

我已经安装了java扩展包这件事从今天才开始发生不确定这是由于某些 json 设置还是其他原因造成的 See 诸如 s x 和参数名称之类的随机内容出现在我的打印语句中 https github com redhat develope
如何强制执行不同的线程

我有一个主线程执行一些 CPU 密集型操作线程必须为其所有计算持有锁还有一些其他线程偶尔需要在短时间内使用相同的锁如果没有其他线程如何强制主线程偶尔允许其他线程执行而不减慢速度周期性的 lock release time slee
Linq Boolean 返回异常 DROPDOWNLIST 有一个无效的 SelectedValue，因为它不存在于项目列表中

我有一个绑定到 linq 数据源的下拉列表此下拉列表显示所有弓箭手编号除了那些在数据库中状态设置为 false 的弓箭手编号假设我有一条之前创建的记录现在我想编辑现在设置为 false 的 Bowzer 我遇到了这个异常我不知道如
apache-commons ftp 检索多个文件

我正在尝试使用 apache commons net FTP lib 从 FTP 服务器获取数据如果目录中只有 1 个文件该代码可以正常工作但在我第二次调用retrieveFileStream 时始终返回 null 有什么想法吗我编
iOS6，UIWebView 和位置：固定

我们有一个 PhoneGap 应用程序其导航栏和选项卡栏实现为固定位置的 div 参见屏幕 1 在 iOS6 中当显示键盘时这些 div 会出现一些奇怪的行为当我们输入第一个字母时 div 将消失并显示空白区域当我们关闭键盘
多处理和 Selenium Python

我有 3 个驱动程序 Firefox 浏览器我希望它们能够do something在网站列表中我有一个工人定义为 def worker browser queue while True id queue get True obj Rev
在elasticsearch上查找具有空字符串值的文档

我一直在尝试使用elasticsearch 仅过滤那些正文中包含空字符串的文档到目前为止我还没有运气在继续之前我应该提到我已经尝试过many 解决方案在 Interwebz 和 StackOverflow 上传播因此下面是我尝试
.NET LocalReport / .rdlc AppDomain 问题

我正在使用 Microsoft Reporting WebForms LocalReport 和 rdlc 报告文件生成 pdf s 这是在 Windows 服务 NET 4 6 x64 VS2015 的后台完成的我有两个问题 Windo
多个 canActivate 防护在第一次失败时全部运行

我有一条有两个人的路线canActivate警卫 AuthGuard and RoleGuard 首先 AuthGuard 检查用户是否已登录如果没有则重定向到登录页面第二个检查用户是否定义了允许查看页面的角色如果没有则重定向到未
为什么 imagemagick 中的 PNG 图像的 readimage 和 writeimage 需要花费大量时间？

我正在使用 Imagemagick 版本 7 0 5 4 来执行图像处理操作例如裁剪调整大小等去图形 https github com gographics imagick图书馆我还管理一个魔法棒对象池 Features Cipher
常量折叠的具体规则是什么？

我刚刚意识到 CPython 似乎对表示相同值的常量表达式的处理方式与常量折叠不同例如 gt gt gt import dis gt gt gt dis dis 2 66 1 0 LOAD CONST 0 2 2 LOAD CONST 1
BigQuery 的速度是否足以满足实时现场请求

我正在研究是否可以使用 BigQuery 及其 API 根据访问者查看的内容进行现场查询因此响应时间至关重要我加载了一个包含 10k 行 4 列的非常简单的结构化数据集并运行了一个非常简单的查询这需要 1 到 2 秒的时间希望
CorFlags.exe /32BIT+ 如何工作？

我想我的问题是关于CLR http en wikipedia org wiki Common Language Runtime装载机我想了解背后的机制CorFlags exe http msdn microsoft com en us l
无法按升序对列表进行排序

Map
实验::可选的 nullopt_t 构造函数

Here http www open std org JTC1 SC22 WG21 docs papers 2013 n3793 html optional nullopt被描述为nullopt t and nullopt为了optiona
EKCalendar 中的“完整日历同步”到底是什么？

的文档EKCalendar类指出了这一点calendarIdentifier财产与日历完全同步将丢失此标识符你应该有一个处理标识符为 no 的日历的计划通过缓存其其他属性可以更长时间地获取完全同步究竟何时发生以及除了calen
pySpark将mapPartitions的结果转换为spark DataFrame

我有一项工作需要在分区的 Spark 数据帧上运行该过程如下所示 rdd sp df repartition n partitions partition key rdd mapPartitions lambda x some funct

pySpark将mapPartitions的结果转换为spark DataFrame

pySpark将mapPartitions的结果转换为spark DataFrame 的相关文章

随机推荐

热门标签