为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

2024-05-08

对于下面的数据框

df = spark.createDataFrame(data=[('Alice',4.300),('Bob',7.677)], schema=['name','High'])

当我尝试找到最小值和最大值时，我只得到输出中的最小值。

df.agg({'High':'max','High':'min'}).show()

+-----------+
|min(High)  |
+-----------+
|    2094900|
+-----------+

为什么不能agg()像 Pandas 一样给出 max 和 min 吗？

如你看到的here http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.GroupedData.agg:

聚合（*表达式）

计算聚合并将结果作为 DataFrame 返回。

可用的聚合函数有 avg、max、min、sum、count。

如果 exprs 是从字符串到字符串的单个字典映射，则键是要执行聚合的列，值是聚合函数。

或者，exprs 也可以是聚合列表达式的列表。

参数：exprs– 从列名（字符串）到聚合函数（字符串）的字典映射，或列列表。

您可以使用列列表并在每一列上应用您需要的函数，如下所示：

>>> from pyspark.sql import functions as F

>>> df.agg(F.min(df.High),F.max(df.High),F.avg(df.High),F.sum(df.High)).show()
+---------+---------+---------+---------+
|min(High)|max(High)|avg(High)|sum(High)|
+---------+---------+---------+---------+
|      4.3|    7.677|   5.9885|   11.977|
+---------+---------+---------+---------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制] 的相关文章

使用 pyppeteer 与 asyncio 关联来抓取内容

我用 python 结合编写了一个脚本pyppeteer随着asyncio从其登陆页面抓取不同帖子的链接并最终通过跟踪通向其内页的 url 来获取每个帖子的标题我这里解析的内容不是动态的但是我利用了pyppeteer and asy
Python：由于 OSError 无法安装软件包：[Errno 2] 没有这样的文件或目录

我尝试使用pip安装sklearn 并且我收到以下错误消息错误由于 OSError 无法安装软件包 Errno 2 没有这样的文件或目录 C Users 13434 AppData Local Packages PythonSoftwa
让 python 脚本打印到终端而不作为标准输出的一部分返回

我正在尝试编写一个返回值的 python 脚本然后我可以将其传递给 bash 脚本问题是我想要在 bash 中返回一个单一值但我想要一些东西一路打印到终端这是一个示例脚本我们称之为 return5 py usr bin env p
如何进行重定向并保留查询字符串？

我想进行重定向并保留查询字符串就像是self redirect加上发送的查询参数那可能吗 newurl my new route urllib urlencode self request params self redirect ne
使用 Poetry 创建的 Python 项目：如何在 Visual Studio Code 中调试它？

我有一个根据基本 Poetry 创建的 Python 项目指示 https python poetry org docs basic usage 项目文件夹是这样的 my project my project my project py F
清理 MongoDB 的输入

我正在为 MongoDB 数据库程序编写 REST 接口并尝试实现搜索功能我想公开整个 MongoDB 接口我确实有两个问题但它们是相关的所以我将它们放在一篇文章中使用 Python json 模块解码不受信任的 JSON 是否
Flask 和 Reactjs 抛出 JSX 转换错误

我已经开始将 ReactJS 与 Python Flask 后端结合使用通过 Flask 渲染模板时我在 Chrome 控制台中收到以下客户端错误错误找不到模块 jstransform visitors es6 templates
如何停止 PythonShell

如何终止停止 Node js 中 PythonShell 执行的 Python 脚本的执行我在交互模式下运行输出通过 socket io 发送到给定的房间如果没有更多的客户端连接到这个房间我想停止 python 脚本的执行这是我
python os.fork 使用相同的 python 解释器吗？

据我所知 Python 中的线程使用相同的 Python 解释器实例我的问题是与创建的流程相同os fork 或者每个进程创建的os fork有自己的翻译吗每当你 fork 时整个 Python 进程都会在内存中复制包括Python
在 Python 中引发异常的正确方法是什么？ [复制]

这个问题在这里已经有答案了这是简单的代码 import sys class EmptyArgs StandardError pass if name main The first way to raise an exception if
使用 Popen 打开进程并获取 PID

我正在开发一个漂亮的小功能 def startProcess name path Starts a process in the background and writes a PID file returns integer pid Ch
在添加数据之前使用 Python gdata 清除工作表中的行

我有一个 Google 电子表格我使用 python 脚本和 gdata 库填充值如果我多次运行脚本它会将新行附加到工作表中我希望脚本在填充之前首先清除行中的所有数据这样每次运行时我都会有一组新的数据脚本我尝试过使用 Updat
在 Keras 中使用有状态 LSTM 训练多变量多级数回归问题

我有时间序列P过程每个过程的长度各不相同但都有 5 个变量维度我试图预测测试过程的估计寿命我正在用有状态的方法来解决这个问题LSTM在喀拉斯但我不确定我的训练过程是否正确我将每个序列分成长度的批次30 所以每个序列都是这样的形
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
Python：如何“杀死”类实例/对象？

我希望 Roach 类在达到一定量的饥饿时死亡但我不知道如何删除该实例我的术语可能有误但我的意思是窗户上有大量蟑螂我希望特定的蟑螂完全消失我会向您展示代码但它很长我将蟑螂类添加到策划者类蟑螂种群列表中一般来说每个
从函数在 python 3 中创建全局变量

我想知道为什么在函数结束后我无法访问变量 variable for raw data 代码是这样的 def htmlfrom Website URL import urllib request response urllib request
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
python 中“重载”函数的最佳方法？ [复制]

这个问题在这里已经有答案了我正在尝试在 python 中做这样的事情 def foo x y do something at position x y def foo pos foo pos x pos y 所以我想根据我提供的参数数量调
将整数转换为特定格式的十六进制字符串

我是 python 新手有以下问题我需要将整数转换为 6 个字节的十六进制字符串例如 281473900746245 gt xFF xFF xBF xDE x16 x05 十六进制字符串的格式很重要 int 值的长度是可变的格式 0
python：日志记录：我们可以向记录器添加多个过滤器吗？考虑哪一个

我试图了解 Python 日志记录中的多个过滤器一个在配置中定义另一个在代码中定义如何工作我正在开发一个 Django 项目下面是我在 settings py 中的记录器配置我的目标是switch on and switch o

随机推荐

如何从 Java 类调用 Kotlin 类

我需要将意图从 java 活动传递到 Kotlin 活动 Java活动ProfileActivity class Intent selectGameIntent new Intent ProfileActivity this kotlin
EF 6 基于代码的迁移：向现有实体添加非空属性

我想向现有表添加一个非空外键列环境 EF 6 代码优先基于代码的迁移 Code from Migration class for new entity Currency CreateTable dbo Currency c gt new
了解子表单何时关闭

我有一个带有按钮的 Form1 当您单击按钮时将执行以下代码块 Form2 frm new Form2 frm Name Form musteriNumarasi ToString frm Text Kullan c musteriNum
有没有办法自动折叠解决方案资源管理器中的脚本文档部分？

在调试模式下解决方案资源管理器有一个脚本文档部分默认情况下它是展开的当调试器运行时新的ScriptDocumentxxx poll txt文件被添加到此部分当我浏览资源管理器文件时添加这些新行项目会导致资源管理器的整个内容向下移
如何获取每个类别（例如 WooCommerce 后端）的产品数量？

我正在建立一个新网站我对 Woocommerce 非常满意我只需要一个快速技巧来获取每个类别中的产品数量我已经调出了每个产品的类别但无法弄清楚如何从该类别中获取产品数量我有一个适合我的产品的列表样式实际上是活动网站的活动查看图
如何找到类路径上具有特定方法注释的所有类？

我想在Java中实现一个基于注释的初始化机制具体来说我定义了一个注释 Retention RetentionPolicy RUNTIME Target ElementType METHOD public interface Initia
VHDL STD_LOGIC_VECTOR 通配符值

我一直在尝试用 VHDL 代码为我在 Altera DE1 板上实现的简单 16 位处理器编写有限状态机在有限状态机中我有一个CASE处理不同 16 位指令的语句这些指令由 16 位 STD LOGIC VECTOR 带入 FSM 但
客户端凭据授予的访问令牌是否可以映射到用户？

我想使用 oauth2 中的客户端凭据授予来保护 API 但是我希望访问令牌映射到单个用户由我在带外信任设置阶段选择在该阶段我共享密钥秘密这是一个问题吗我知道使用客户端凭据授予的访问令牌不应该在用户的上下文中以这种方式绑定它
自定义键盘 iphone，UITextView 中的退格按钮有问题

检查此代码我的自定义键盘 IBAction updateTextBackSpace id sender if txtview text length gt 0 NSString deletedLastCharString txtview
如何告诉杰克逊在反序列化期间忽略空对象？

在反序列化过程中据我理解是将JSON数据转换为Java对象的过程我如何告诉Jackson 当它读取不包含数据的对象时应该忽略它我正在使用 Jackson 2 6 6 和 Spring 4 2 6 我的控制器收到的JSON数据如下 i
Linq：Select 和Where 之间有什么区别

The Select and WhereLinq 中提供了方法对于这两种方法每个开发人员都应该了解什么例如何时使用其中一种而不是另一种使用一种相对于另一种的优势等 Where 查找匹配的项目并仅返回匹配的项目过滤 gt IEnu
从 python 的单词列表中查找最长的常见单词序列

我搜索了很多解决方案确实发现了类似的问题这个答案 https stackoverflow com questions 21930757 longest repeated substring返回可能不属于输入列表中所有字符串的最长字符序列
使用 D3.js 解析时间序列数据

是时候寻求帮助了我已经学习 D3 js 几个星期了我才开始觉得我理解了其中的 10 哈哈哈我正在尝试生成一个非常简单的线图只要数据非常简单我就可以做到这一点但我的原始数据源具有 UTC 时间戳和实数小数这会导致任何超出简单范
PHP DOMDocument 中 XML 内 HTML 表的 Xpath 查询

我有一个具有以下树结构的 XML 文件
处理调车场额外的操作员

给定这样的输入 3 4 算法将其转化为3 4 当执行后缀表达式时我可以找到错误但是在转换过程中是否有可能发现这一点我读过的维基百科文章和互联网文章不处理这种情况谢谢除了括号不匹配之外还可以使用正则表达式来验证有效表达式如维基百
带有 WCF BadContextToken 的 PHP Soap 客户端

经过几天的谷歌 in 尝试脱发我仍然找不到解决方案所以请帮助简短信息我需要使用 PHP SOAP 客户端的 WCF 服务它使用 wsHttpBinding ws security 并且无法设置 basicHttpBinding
如何判断变量是否是数组

我有一个接受 Any 的 Swift 函数我希望它能够接受字符串数组整数数组混合数组或数组数组等它也可以只接受字符串或整数等等不在数组中所以我有这个 private func parse parameter Any if pa
通过傅里叶空间填充进行插值

我最近尝试在 matlab 上实现一个在傅立叶域中使用零填充的插值方法的简单示例但我无法正常工作我总是有一个小的频移在傅里叶空间中几乎不可见但它在时空上产生了巨大的误差由于傅里叶空间中的零填充似乎是一种常见且快速的插值方法因
在 Ruby 中从一个数组减去另一个数组

我有两个任务数组创建和分配我想从创建的任务数组中删除所有分配的任务这是我的工作代码但很混乱 assigned tasks user assigned tasks created tasks user created tasks Do
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d

为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制] 的相关文章

随机推荐

热门标签