获取 Spark 数据帧列中最大值的最佳方法

2024-04-10

我正在尝试找出在 Spark 数据帧列中获取最大值的最佳方法。

考虑以下示例：

df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"])
df.show()

这会创建：

+---+---+
|  A|  B|
+---+---+
|1.0|4.0|
|2.0|5.0|
|3.0|6.0|
+---+---+

我的目标是找到 A 列中的最大值（通过检查，这是 3.0）。使用 PySpark，我能想到以下四种方法：

# Method 1: Use describe()
float(df.describe("A").filter("summary = 'max'").select("A").first().asDict()['A'])

# Method 2: Use SQL
df.registerTempTable("df_table")
spark.sql("SELECT MAX(A) as maxval FROM df_table").first().asDict()['maxval']

# Method 3: Use groupby()
df.groupby().max('A').first().asDict()['max(A)']

# Method 4: Convert to RDD
df.select("A").rdd.max()[0]

上面的每一个都给出了正确的答案，但是在没有 Spark 分析工具的情况下，我无法判断哪个是最好的。

从直觉或经验来看，上述哪种方法在 Spark 运行时或资源使用方面最有效，或者是否有比上述方法更直接的方法？

>df1.show()
+-----+--------------------+--------+----------+-----------+
|floor|           timestamp|     uid|         x|          y|
+-----+--------------------+--------+----------+-----------+
|    1|2014-07-19T16:00:...|600dfbe2| 103.79211|71.50419418|
|    1|2014-07-19T16:00:...|5e7b40e1| 110.33613|100.6828393|
|    1|2014-07-19T16:00:...|285d22e4|110.066315|86.48873585|
|    1|2014-07-19T16:00:...|74d917a1| 103.78499|71.45633073|

>row1 = df1.agg({"x": "max"}).collect()[0]
>print row1
Row(max(x)=110.33613)
>print row1["max(x)"]
110.33613

答案与方法3几乎相同。但似乎可以删除method3中的“asDict()”

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

获取 Spark 数据帧列中最大值的最佳方法的相关文章

使用特定的类/函数预加载 Jupyter Notebook

我想预加载一个笔记本其中包含我在另一个文件中定义的特定类函数更具体地说我想用 python 来做到这一点比如加载一个配置文件包含所有相关的类函数目前我正在使用 python 生成笔记本并在服务器上自动启动它们因为不同的
Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
YOLOv8获取预测边界框

我想将 OpenCV 与 YOLOv8 集成ultralytics 所以我想从模型预测中获取边界框坐标我该怎么做呢 from ultralytics import YOLO import cv2 model YOLO yolov8n pt
datetime.datetime.now() 返回旧值

我正在通过匹配日期查找 python 中的数据存储条目我想要的是每天选择今天的条目但由于某种原因当我将代码上传到 gae 服务器时它只能工作一天第二天它仍然返回相同的值例如当我上传代码并在 07 01 2014 执行它时它
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
如何使用 Mysql Python 连接器检索二进制数据？

如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
如何通过 TLS 1.2 运行 django runserver

我正在本地 Mac OS X 机器上测试 Stripe 订单我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

使用jq连接多个文件中的JSON数组

我有一系列包含记录数组的 JSON 文件例如 cat f1 json records a 1 a 3 cat f2 json records a 2 我想 1 从每个记录中提取一个字段 2 输出一个包含所有输入文件中所有字段值的数组第一
C：创建静态库并使用 Makefile 进行链接

我在尝试着了解静态和共享库 http randu org tutorials c libraries php 我想执行以下操作来创建一个单独编译和链接的 makefile 以便创建和链接静态库形成最终的静态可执行文件我有以下 Makef
在java应用程序中使用“bcc”发送电子邮件而不使用“to”

我已经阅读了 stackoverflow 中的所有参考资料然而没有任何东西符合我们的目标我该如何使用bccjava中的sendmail方法根据 SMTP 的 RFC RFC 2821 link http www ietf org r
mySQL SELECT 即将到来的生日

我正在尝试编写一个查询来选择数据库中生日在未来 7 天内的用户我做了很多研究但无法想出可行的解决方案生日字段存储为 varchar 例如 04 16 93 有什么办法可以处理这个吗这是我到目前为止所拥有的 SELECT FROM P
为什么一个简单的 React 组件会渲染两次？

我刚刚启动了一个新的 create react app 项目并注意到 React 渲染组件两次我的反应版本在包 json is react 16 13 1 import React useRef from react const App
Tomcat 未从 eclipse 启动

我试图从 eclipse 启动 tomcat 服务器 6 0 32 不是我的应用程序但它失败并出现错误 Server Apache Tomcat v6 0 32 at localhost failed to start 但是当我用star
Windows 窗体中的淡入淡出效果

我正在尝试使用 Windows 窗体向按钮图片框和文本框添加一些淡入淡出效果我知道我应该为此使用 WPF 但我从未使用过它这对我来说太复杂了我的项目现在要高级以切换平台我有这个但不透明褪色效果一点也不平滑 public voi
如何在 Pandas 中用分组模式替换缺失值？

我按照中的方法这个帖子 https stackoverflow com questions 45741879 can i replace nans with the mode of a column in a grouped data fr
Azure 中用于 SVG 和字体的 Express Node JS web.config

我在 Express 网站上遇到问题该网站使用 SVG 和字体等其他文件本地运行应用程序时没有任何问题但部署到 Azure 上后 SVG 和字体不再出现创建了一个web config项目根目录下的文件
如何将不同的菜单项添加到多个上下文菜单？

我有两个按钮每个按钮都有一个上下文菜单但我不确定如何更改第二个菜单中的菜单项我的代码仅显示我的第一个按钮的项目 Button Button1 Button findViewById R id Button1 registerForCo
如何检测访问者使用的是HTTP/2还是SPDY？

我正在寻找一个可以检测访问者的浏览器是否启用了 SPDY 或 HTTP 2 的脚本就像是this https www ist http2 aktiviert de 理论上一次nextHopProtocol降落在资源计时 https w3
ASP.NET MVC - HTTP 身份验证提示

是否可以让我的应用程序在渲染视图之前要求输入用户名和密码提示就像在 twitter API 上获取有关您帐户的信息一样 http twitter com account verify credentials xml http twitte
如何使用 ComboBox 作为 Kendo UI 网格列？

我正在使用剑道网格并尝试将名称字段设置为具有自己的数据源的组合框我没有收到 javascript 错误但是当我去编辑网格中的名称字段时它没有显示组合框它仍然显示一个输入字段 function console log ready v
在无状态组件中反应内容可编辑

我正在尝试在无状态反应组件中实现一个 contenteditable div 我不断收到以下警告 warning js 36 Warning A component is contentEditable and contains child
Django - 将日期设置为日期输入值

我正在尝试将日期设置为表单中输入的日期值但是正如您可能已经猜到的那样它不起作用这是我的模板中的内容 div class form group div
如何定义预处理器宏来检查iOS版本

我用它来检查iOS版本但它不起作用 ifndef kCFCoreFoundationVersionNumber iPhoneOS 5 0 define kCFCoreFoundationVersionNumber iPhoneOS 5 0
删除c#中列表中所有字符串中的特定字符

我在列表中有一些字符串它们是 KHIJEFGACDB KHIJEFGBACD KHIJEFGBCDA KHIJEFGCDAB KHIJEFGCDBA KHIJGABCDEF KHIJGABEFCD KHIJGACDBEF KHIJGACD
让 PostgreSQL 选择下一个最小可用 id

我想让 PostgreSQL 选择第一个下一个可用 id这样在以下情况下就不会出现错误 CREATE TABLE test id serial PRIMARY KEY name varchar Then INSERT INTO test V
出现错误：在部署/迁移到 Heroku 时更新 rubygems

迁移到 Heroku 时出现以下错误 Installing hoe 2 9 4 usr ruby1 9 2 lib ruby 1 9 1 rubygems installer rb 170 in gt install hoe 需要 Ruby
获取 Spark 数据帧列中最大值的最佳方法

我正在尝试找出在 Spark 数据帧列中获取最大值的最佳方法考虑以下示例 df spark createDataFrame 1 4 2 5 3 6 A B df show 这会创建 A B 1 0 4 0 2 0 5 0 3 0 6 0

获取 Spark 数据帧列中最大值的最佳方法

获取 Spark 数据帧列中最大值的最佳方法 的相关文章

随机推荐

热门标签

获取 Spark 数据帧列中最大值的最佳方法的相关文章