如何将 Spark 数据帧转换为 Polars 数据帧？

2024-01-10

我想知道如何将 Spark 数据帧转换为 Polars 数据帧。

假设我在 PySpark 上有这段代码：

df = spark.sql('''select * from tmp''')

我可以使用以下命令轻松地将其转换为 pandas 数据框.toPandas。极坐标中有类似的东西吗，因为我需要获取极坐标数据帧以进行进一步处理？

Context

Pyspark 使用箭头转换为 pandas。 Polars 是箭头存储器的抽象。因此我们可以劫持 Spark 内部使用的 API 创建箭头数据并使用它来创建极坐标DataFrame.

TLDR

给定一个 Spark 上下文，我们可以这样写：

import pyarrow as pa
import polars as pl

sql_context = SQLContext(spark)

data = [('James',[1, 2]),]
spark_df = sql_context.createDataFrame(data=data, schema = ["name","properties"])

df = pl.from_arrow(pa.Table.from_batches(spark_df._collect_as_arrow()))

print(df)

shape: (1, 2)
┌───────┬────────────┐
│ name  ┆ properties │
│ ---   ┆ ---        │
│ str   ┆ list[i64]  │
╞═══════╪════════════╡
│ James ┆ [1, 2]     │
└───────┴────────────┘

序列化步骤

这实际上会比toPandas由...提供spark本身，因为它保存了额外的副本。

toPandas()将导致此序列化/复制步骤：

spark-memory -> arrow-memory -> pandas-memory

根据提供的查询，我们有：

spark-memory -> arrow/polars-memory

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

PySpark

pythonpolars

如何将 Spark 数据帧转换为 Polars 数据帧？的相关文章

Python setuptools：如何在 setup.py 中添加私有存储库 (gitlab)？

我上传了 2 个包它们位于我的 gitlab 存储库中如果我想使用 pip 将它们安装在我的系统中这很容易因为 gitlab 可以帮助您 https docs gitlab com ee user packages pypi rep
切片稀疏（scipy）矩阵

我将不胜感激任何帮助以理解从 scipy sparse 包中切片 lil matrix A 时的以下行为实际上我想根据行和列的任意索引列表提取子矩阵当我使用这两行代码时 x1 A list 1 x2 x1 list 2 一切都很好
即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
如何使用显式引用转储 YAML？

递归引用非常适合ruamel yaml or pyyaml ruamel yaml dump ruamel yaml load A A id001 id001 然而它显然不适用于普通引用 ruamel yaml dump ruamel
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
使用 scipy curve_fit 拟合噪声指数的建议？

我正在尝试拟合通常按以下方式建模的数据 def fit eq x a b c d e return a 1 np exp x b c np exp x d e x np arange 0 100 0 001 y fit eq x 1 1 1
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

stdin 上的 close/fclose 是否保证正确？

似乎以下调用执行了您所期望的操作关闭流并不允许任何进一步的输入等待流上的输入的任何操作都会返回错误但它是否保证在所有编译器平台上都是正确的 close fileno stdin fclose stdin fclose stdin 导
.val() 未从输入获取更新值

我有两个输入字段我试图通过单击按钮使用 jquery 获取它们的值这似乎是一个非常简单的操作但我一生都无法让它发挥作用这是代码片段 Name
累加值，例如通过扫描，但可以随着时间的推移重置累加器

我有一个可观察的 obs1 它代表一段时间内的数字流我需要累积这些数字的总和并逐步发出它即很长一段路要说我需要使用scan操作员然后是第二个 Observable obs2 代表某种重置时间换句话说当obs2发出我必须重置我
Opengl 深度缓冲区和剔除

OpenGL 中使用背面剔除和深度缓冲区有什么区别背面剔除是指 OpenGL 确定哪些面背对观看者因此不可见想象一个立方体无论你如何旋转立方体三个面始终是不可见的找出这些面是哪些面将它们从要绘制的多边形列表中删除这样您就将绘
打开 QDialog 并保存最后的状态

我正在尝试打开一个QDialog from a QMainWindow 并且在关闭 QDialog之后如果我需要再次打开它它必须打开并显示与我关闭它时相同的信息这是代码QMainWindow class A QMainWindow d
从 Azure DevOps Python Artifacts feed 进行 pip 安装不起作用

当我尝试从 Azure DevOps Artifacts feed 安装包时出现错误 Looking in indexes https pypi org simple https pkgs dev azure com company co
如何将可变数量的参数传递给 lambda 函数

我正在尝试将可变数量的参数传递给 lambda 函数 lambda 函数中接受可变数量参数的原型是什么我应该写一个命名函数而不是 lambda 吗 std once flag flag template
适用于所有 Android 设备的 Android Badger

你好我有 android 应用程序我需要将 badger 添加到应用程序启动器我在互联网上搜索并找到了这个库 compile me leolin ShortcutBadger 1 1 4 aar 可以工作但不适用于我在三星和 HTC
C 中的简单 lua_yield 无法从 Lua 正确恢复

我刚刚开始深入研究 lua 协程与 C 我对我认为应该是我能想到的最简单的例子有疑问 The C include
Table2excel 插件不起作用

我正在开发一个仪表板应用程序我想实现下载表为 xls 功能在此链接上您可以看到表格的样子仪表板 http pasteboard co p82eqze png 我找到了一个library https github com rainabb
按 lubridate 日期 %within% 间隔连接数据框

我一直在练习和学习使用包含以下内容的列来处理 R 数据框lubridate数据类型例如我的示例问题其他问题 https stackoverflow com questions 51407177 r lubridate split dura
Hadoop start-all.sh错误：没有这样的文件或目录

成功创建名称节点后我在尝试启动名称节点时遇到了这个问题对我来说它似乎试图记录到一个不存在的文件如何更改设置以将脚本日志定向到正确的目录 bash 3 2 start all sh starting namenode logging
如何在 Docker 第 3 部分教程中使用curl -4 http://localhost？

使用 Docker 教程我被困在这部分 https docs docker com get started part3 run your new load balanced app https docs docker com get sta
读取 Hadoop ArrayWritable 中包装的值

我是 Hadoop 和 Java 的新手我的映射器输出文本和 Arraywritable 我在读取 ArrayWritable 值时遇到问题 Unbale 将 get 值转换为整数附上映射器和减速器代码有人可以帮我纠正我的减速器代码以
计算 PHP 数组中的日期

我有这个数组 Array 0 gt Array x gt 2016 04 19 1 gt Array x gt 2016 05 25 2 gt Array x gt 2016 05 26 3 gt Array x gt 2016 05 27
std::tuple 用于不可复制和不可移动的对象

我有一门删除了复制和移动向量的课程 struct A A int a data a A std cout lt lt A lt lt this lt lt lt lt data lt lt std endl A A const obj de
Maven SCR 插件 - 不生成 OSGI-INF 文件夹

我的 SCR 插件无法正常工作我已经尽可能多地进行了搜索但只找到了与我需要使用的结构不相似的示例下面是 POM 的片段这些几乎是 CQ 项目原型生成的默认值所有依赖项都在那里所以可能不是这样这是构建的输出 SLF4J Fail
CodeIgniter 2.x 会话和 Internet Explorer

我在网上阅读了大量有关 CodeIgniter 及其会话和 Internet Explorer 问题的文章其中很多内容似乎都以会话名称为中心名称中没有下划线这些文章似乎都是针对 CI 1 x 的 CI还存在这个问题吗我尝试删除下划线
英特尔伽利略裸机 UART

我想编写一些 hello world 程序裸机申请于英特尔伽利略木板当然使用 UEFI 打印文本到 UART 1 效果很好但我想手动访问 UART 而不需要 UEFI 的任何帮助在 QEMU 中我的代码运行良好 h file
如何将 Spark 数据帧转换为 Polars 数据帧？

我想知道如何将 Spark 数据帧转换为 Polars 数据帧假设我在 PySpark 上有这段代码 df spark sql select from tmp 我可以使用以下命令轻松地将其转换为 pandas 数据框 toPandas 极