Pyspark dataframe 获取列的所有值

2023-12-31

我想获取 pyspark 数据框中列的所有值。我做了一些搜索，但从未找到有效且简短的解决方案。

假设我想在名为“name”的列中获取一个值。我有一个解决方案：

sum(dataframe.select("name").toPandas().values.tolist(),[])

它可以工作，但效率不高，因为它会转换为 pandas 然后压平列表...是否有更好且简短的解决方案？

以下选项将提供比以下选项更好的性能sum.

Using collect_list

import pyspark.sql.functions as f
my_list = df.select(f.collect_list('name')).first()[0]

使用RDD：

my_list = df.select("name").rdd.flatMap(lambda x: x).collect()

我不确定，但在我的几次压力测试中，collect_list提供更好的性能。如果有人能确认的话那就太好了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

PySpark

Pyspark dataframe 获取列的所有值的相关文章

Python：用中值替换异常值

我有一个 python 数据框其中有一些异常值如果这些值不存在的话我想用数据的中值替换它们 id Age 10236 766105 11993 288 9337 205 38189 88 35555 82 39443 75 10762
Pandas：根据其他多级列对最里面的列进行分组排序

考虑下面的 df In 3771 df pd DataFrame A a 11 B b 11 C C1 C1 C2 C1 C3 C3 C2 C3 C3 C2 C2 D D1 D2 D1 D3 D3 D2 D4 D4 D1 D2 D3 E v
如果新文件不存在则写入新文件，如果存在则追加到文件

我有一个程序可以写入用户的highscore到一个文本文件该文件由用户选择时命名playername 如果具有该特定用户名的文件已经存在那么程序应该附加到该文件以便您可以看到多个highscore 如果具有该用户名的文件不存在例如
在Python中将距离矩阵转换为成对距离列表[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案假设Python中有以下距离矩阵 0 1 2 3 0 0 1 4 8 1 1 0 3 7 2 4 3 0 3 3 8 7 3 0 我想
在python中浏览ftp目录

我正在尝试使用 ftplib 使用 Python 3 从 ftp 服务器下载多个文件夹我有一个文件夹名称列表它们都位于文件夹 root 中问题是我不知道如何浏览它们当我使用cwd我可以进入更深的目录但是如何再次起来呢我正在尝试得
Python - 在先前已在全局范围内查找的函数内重新分配名称

为什么我在下面的第三个代码中出现错误但在前两个代码中却没有出现错误我使用的是 Python 3 6 0 Anaconda 4 3 1 64 位 Jupyter Code 1 c 100 def fib c 20 a c print a
检查对象是否是字符串列表的列表？

是什么elegant检查对象是否是字符串列表列表的方法没有嵌套循环也许这里必须是构造结构化迭代的常规方法 UPD 像这样的东西 l a b c d 1 3 e 2 f def recurse iterable levels result
如何将文本文件中的十六进制行转换为数组（Python）？

我有一个文本文件每行包含一个十六进制明文我的文件如下所示 7a8e5dc390781eab8df2c090bf4bebca dbac0fba55d3d4fc177161bfe24dc7fb 82e5a7a021197f6fbe94a86
如何在Python模拟中调用模拟方法

我想创建一个模拟方法来调用被模拟的底层方法我正在想象类似以下的内容但我找不到任何有关模拟对象的文档该对象包含对被模拟对象的引用我将其表示为 wrapped method foo below from mock import patc
继承类中的python __init__方法[重复]

这个问题在这里已经有答案了我想为子类提供一些额外的属性而不必显式调用新方法那么有没有办法给继承的类一个 init 不重写的类型方法 init 父类的方法我编写下面的代码纯粹是为了说明我的问题因此属性等的命名很糟糕 class in
如何使用 Python Flask-Security 使用 bcrypt 加密密码？

我正在尝试使用 Flask Security 文档中的标准基本示例并使其正常工作除了密码以明文形式存储之外我知道这一行 user datastore create user email email protected cdn cgi
Django 自定义查询集过滤器

在 Django 中是否有一种标准方法可以为查询集编写复杂的自定义过滤器就像我能写的一样 MyClass objects all filter field val 我想做这样的事情 MyClass objects all filter
Django：上传前调整图像大小

我想调整图像大小 Pillow 在上传之前我在下面编写了代码但不起作用并得到错误 myapp list 处的属性错误坚定的请求方式 POST 请求网址 http 127 0 0 1 8000 myapp list http 127
仅打印字符串中的元音

我是Python新手我正在尝试打印字符串中的所有元音因此如果有人输入嘿一切都好吗所有元音都需要打印但我不知道怎么做所以这不是计算元音而是打印元音现在我已经得到了这个 sentence input Enter your s
是否有比 .apply() 更慢或更受控制的替代方案？

所以这似乎是一个奇怪的问题但我有一只熊猫DataFrame其中包含地址我想对其进行地理编码以便获得纬度和经度我有可以使用的代码 apply 感谢这个非常有帮助的线程使用 geopy pandas 的新列坐标 https stack
通过 Tweepy 在 Twitter 上更新状态时的回溯

我一直在尝试使用 Twitter 在 Twitter 上发布我的 Rpi 读数tweepy 但首先我想检查一下是否tweepy本来可以正常工作但事实并非如此我正确安装了软件包但是当我尝试运行简单的代码来发布某些内容时出现错误是的
使用 PyCharm 分析 Django

即使在开发环境中我的应用程序也相当慢所以我想找出是什么导致它变慢以便我可以尝试修复它我了解调试工具栏根据它的报告数据库查询和下载的源都不是问题所以它一定是业务逻辑但是我无法使用 Django 服务器运行 PyCharm 分
vtkPythonAlgorithm 控制管道执行

我正在尝试用 python 编写一个 vtk 过滤器ProjectDepthImage进行投影不是问题它控制 vtk 管道的执行基本上我对 UserEvent 有一个回调当用户在渲染窗口处于活动状态时按下 u 键时会触发该回调这将
媒体文件上的 404 - Django

昨晚我将项目上传到 pythonanywhere com 我想在那里测试我的项目生产设置在我允许的模型之一中用户上传JPG 团队徽标上传过程运行良好文件位于我的 MEDIA ROOT 中问题是当我尝试在模板中访问它以将其显示在页
Python 线程与 Linux 中的多处理

基于此question https stackoverflow com questions 807506 threads vs processes in linux我假设创建新流程应该几乎和创造新线程在Linux中然而很少的测试显示出截

随机推荐

HTML5 CSS：行和调整大小

下面的代码是响应式的可以调整大小等但我正在寻找一些真正简单的 CSS 来在桌面和移动设备上调整大小我知道我可以使用标题链接 w3 css 中的 CSS 但必须有一种更好的方法来轻松地在桌面和移动设备上显示某些内容移动设备默认显示内联
打印/另存为 PDF（保留 CSS 布局）

当我简单地打印如在纸上或将页面另存为 PDF 使用浏览器内置工具时 CSS 会被完全忽略我只会看到一行又一行的内容有没有办法做到这一点无需转换 HTML 2 PDF 图像 Thanks 这可能是因为你有media指定的选项
当 SSM 代理变为活动状态时捕获事件

我想在 SSM 的 Fleet Manager 中注册新的 EC2 实例时触发 lambda 这意味着可以使用 SSM 连接到该实例但是我找不到在 EventBridge 中使用的模式在 EventBridge 中我尝试使用在文档中找
在 SQL Server 2005 上违反 INSERT WHERE COUNT(*) = 0 上的 UNIQUE KEY 约束

我正在从多个进程插入 SQL 数据库这些进程有时可能会尝试将重复数据插入表中我尝试以处理重复项的方式编写查询但我仍然得到 System Data SqlClient SqlException Violation of UNIQUE K
nginx - laravel - hhvm-Fastcgi 出现错误 500

I install a LEMP server in ubuntu 12 04 LTS 64 whit HHVM Fastcgi Service and i install laravel via laravel phar and test
根据浏览器高度和宽度保持纵横比和字体大小？

下面的代码附在window onresize resize The baseWidth and baseHeight在负载上读取作为计算的基础这main变量只需将其设置到主 html 节点即可定义字体设置在块元素上会导致所有的em基于其
ASP.NET Core 1.0 是否支持 ApiExplorer？如何使用它？

ASP NET Core 1 0支持使用API Explorer吗我无法找到任何有关它的文档或如何使用它有人使用过它并且可以分享一些见解吗 Itay的回答帮助我得到了我想要的答案 Rob Lang 博士向任何需要使用 ApiExplor
ajax 调用的生命周期是多长？

假设我在 javascript 中有这段代码 function doAnAjaxCall var xhr1 new XMLHttpRequest xhr1 open GET mylink true xhr1 onreadystatechan
错误：运算符“++”的操作数必须是左值

In C i j 在代码中工作正常但是当我使用时 i j 我收到以下错误 Operand for operator must be an lvalue 为什么我会收到此错误后自增要求操作数应该是可修改的左值但后自增的结果是prvalue
会话超时混乱 - session.setMaxInactiveInterval(0)

我是 JEE 的新手这让我感到困惑根据HttpSession html setMaxInactiveInterval int 间隔 http docs oracle com javaee 7 api javax servlet http
共享 OpenGL VAO/VBO/等。通过 QGLWidget

我正在使用 QGLWidgets 的 3 层层次结构在我的类似 CAD 的应用程序中的 5 个 OpenGL 视口之间共享着色器和顶点数据根上下文用于编译应用程序范围的着色器每个文档上下文用于共享模型顶点数据视口上下文是实际进行渲染的
如何在 XML 属性值中包含 &、<、> 等

我想创建一个 XML 文件用于存储 Java 程序的结构我能够成功解析 Java 程序并根据需要创建标签当我尝试将源代码包含在标签中时问题就出现了因为 Java 源代码可能使用大量实体引用和保留字符例如 lt gt 我无法创建有
d3 过滤后无法附加完整数据

我有一个项目的简化版本我将其浓缩为以下片段 var margins top 20 bottom 300 left 100 right 100 var height 600 var width 1200 var totalWidth wid
将 GraphML 转换为 GV 或 Dot 文件

如何使用 graphml 文件作为输入在 graphviz 中绘制图形 I know graphviz附带graphml2gv为此目的但是当我尝试从命令提示符运行此命令时我收到此消息 cvtgxl not configured for
如何在我的父 git 项目中使用 git 存储库？

我尝试使用子模块将 github 存储库中的副本保留在我的第 3 方目录中创建并获取文件后当我从项目提交时它只能看到文件夹看不到文件是的文件在那里有具体命令吗在 GitHub 上你只会看到一个灰色文件夹 https sta
Jackson 中的 readValue 和 readTree：何时使用哪个？

我刚刚开始使用 Jackson JSON 库 Jackson 是一个非常强大的库但它有非常广泛的 API 很多事情可以通过多种方式完成这使得你很难在杰克逊找到自己的方式如何知道什么是正确最好的做事方式为什么我要使用这个解决方案 S
C 中的递归函数：return 总是必要的吗？

这是我第一次使用递归函数我编写的这个函数如果仅包含按升序排列的字母则返回字符串的大小否则返回 1 在我取出第二个返回后我不明白为什么它对这两个代码都有效一个比另一个更浪费吗希望有一些见解 with returnonly as
opencv4nodejs如何计算拉普拉斯方差的模糊度

我有一个代码 const cv require opencv4nodejs let text let image cv imread images focused jpg let gray image cvtColor cv COLOR B
Apache Kafka 0.9.0.0 显示所有带分区的主题

我目前正在评估 Apache Kafka 我有一个简单的消费者应该从特定主题分区读取消息这是我的客户 public static void main String args Properties props new Properties
Pyspark dataframe 获取列的所有值

我想获取 pyspark 数据框中列的所有值我做了一些搜索但从未找到有效且简短的解决方案假设我想在名为 name 的列中获取一个值我有一个解决方案 sum dataframe select name toPandas values

Pyspark dataframe 获取列的所有值

Pyspark dataframe 获取列的所有值 的相关文章

随机推荐

热门标签

Pyspark dataframe 获取列的所有值的相关文章