计算 PySpark 中列的中位数

2023-12-04

我有一个数据框，如下所示：

+-----------+------------+
|parsed_date|       count|
+-----------+------------+
| 2017-12-16|           2|
| 2017-12-16|           2|
| 2017-12-17|           2|
| 2017-12-17|           2|
| 2017-12-18|           1|
| 2017-12-19|           4|
| 2017-12-19|           4|
| 2017-12-19|           4|
| 2017-12-19|           4|
| 2017-12-20|           1|
+-----------+------------+

我想计算整个“计数”列的中位数并将结果添加到新列中。

I tried:

median = df.approxQuantile('count', [0.5], 0.1).alias('count_median')

但当然我做错了，因为它给出了以下错误：

AttributeError：“列表”对象没有属性“别名”

您需要添加一列withColumn因为approxQuantile返回浮点数列表，而不是 Spark 列。

import pyspark.sql.functions as F

df2 = df.withColumn('count_media', F.lit(df.approxQuantile('count',[0.5],0.1)[0]))

df2.show()
+-----------+-----+-----------+
|parsed_date|count|count_media|
+-----------+-----+-----------+
| 2017-12-16|    2|        2.0|
| 2017-12-16|    2|        2.0|
| 2017-12-17|    2|        2.0|
| 2017-12-17|    2|        2.0|
| 2017-12-18|    1|        2.0|
| 2017-12-19|    4|        2.0|
| 2017-12-19|    4|        2.0|
| 2017-12-19|    4|        2.0|
| 2017-12-19|    4|        2.0|
| 2017-12-20|    1|        2.0|
+-----------+-----+-----------+

您还可以使用approx_percentile / percentile_approxSpark SQL 中的函数：

import pyspark.sql.functions as F

df2 = df.withColumn('count_media', F.expr("approx_percentile(count, 0.5, 10) over ()"))

df2.show()
+-----------+-----+-----------+
|parsed_date|count|count_media|
+-----------+-----+-----------+
| 2017-12-16|    2|          2|
| 2017-12-16|    2|          2|
| 2017-12-17|    2|          2|
| 2017-12-17|    2|          2|
| 2017-12-18|    1|          2|
| 2017-12-19|    4|          2|
| 2017-12-19|    4|          2|
| 2017-12-19|    4|          2|
| 2017-12-19|    4|          2|
| 2017-12-20|    1|          2|
+-----------+-----+-----------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

AttributeError

Median

计算 PySpark 中列的中位数的相关文章

通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst

随机推荐

Sails.js ：删除特定路线的 bodyparser 中间件

有没有办法删除特定路由的中间件目前所有中间件都列在http js file startRequestTimer cookieParser session bodyParser passportInit passportSession my
如何制作数组的浅拷贝？

我将一个二维数组作为属性传递给我的用户控件我将这些值存储在另一个二维数组中 int originalValues this Metrics 后来我改变了值this Metrics 但现在如果我从originalValues 中检索值我
Visual Studio Team Services sdk 中的 Android Gradle 构建许可证错误

我正在尝试在 Visual Studio Team Services 中创建一个有效的 android gradle 构建定义但我总是收到此错误 2016 10 09T07 30 56 0626848Z FAILURE Build fai
Laravel 5.2 - 方法链接不存在

我将数组 posts 传递到我的视图我尝试使用分页但出现错误方法链接不存在看法 C xampp htdocs app resources views search blade php 控制器 posts Post where vis
Woocommerce 获取带有产品 ID 的供应商信息

我将 Woo Commerce 与 WC Vendor 和 WC Booking 插件一起使用我想向供应商发送预订通知目前它向客户和管理员发送通知当管理员将产品状态更改为正在处理和已完成时它会向供应商发送通知但是我想将供应商通
如何连接两行上指定的标识符？

Input其中标识符由两行 1 2 指定 L1 I L1 I C 14 lt unique idenfier WWPTH WWPT WWPTH lt on two rows 1 2 3 Goal 如何连接行 L1 IWWPTH L1 IWW
这个C#/sql查询代码需要花费很多时间来更新表

任何人都可以帮助提高性能吗更新表需要花费很多时间我正在将序列号从 datagridview 更新到名为 dbo json 的表 UPDATE dbo json with numbers private void BtnUpdateSql
如何创建具有特定范围内的值的 numpy 数组？

如何创建一个具有特定范围内的值的 numpy 数组例如只有 2 到 10 个我知道np arrange 10 将创建一个包含 0 到 9 之间 10 个值的数组但不确定如何指示我希望它具有特定范围内的值任何想法提前致谢正如其他人
我应该使用“import os.path”还是“import os”？

根据官方文档 os path是一个模块那么导入它的首选方式是什么 Should I always import it explicitly import os path Or Is importing os enough import
Laravel 3 中用户定义的 MySQL 变量？

我想使用用户定义的变量更新一组具有序号的 MySQL 记录的排名以下查询通过 MySQL 命令行运行良好 SET rank 0 UPDATE scores SET rank rank rank 1 WHERE game id 4 ORD
如何在表单提交后重置表单并启用提交按钮（react-formio）？

我正在使用反应 formio包动态生成表单我使用此链接生成了一个简单的登录表单 https codesandbox io s cra react formio iy8lz 构建后它会创建一个 JSON 然后我使用该 JSON 生成一个
sp_send_dbmail 附件编码

我在 SQL2005 中使用 sp send dbmail 发送一封电子邮件并将结果放在附件中发送附件时它是 UCS 2 编码的我希望它是 ANSI 或 UTF 8 这是 SQL EXEC msdb dbo sp send dbma
LightSwitch v1 显示红色 X 并且无法加载数据

我使用在 Visual Studio 2010 Professional 上运行的 Visual Studio LightSwitch 2011 v1 制作了一个应用程序它是一个桌面应用程序我使用 SQL Server 身份验证来连接到
如何在文本和单选按钮之间添加空格？

我想要文本和单选按钮之间有一个空格为了实现这一点我尝试了 css 类 answerBottomYesNo 通过添加 margin left 7px 由于某种原因它不起作用下面是代码片段 div class questionRow od
如何找到动态数组的大小[重复]

这个问题在这里已经有答案了有什么方法可以找到分配了多少字节RandomArray在这段代码中 include
JSoup HTTP 获取 URL 时出错。状态=405

我想连接到https www notebooksbilliger de 但使用以下代码则不起作用 try Response response Jsoup connect url userAgent Mozilla ignoreContent
PHP 7.2 中未定义的函数 odbc_connect()

我收到错误致命错误未捕获错误调用未定义的函数 odbc connect Ive added the extension in php ini and phpinfo is confirming that the odbc driver
取消排序：记住排列并撤消它

假设我有一个函数 f 它接受向量 v 并返回一个新向量其中元素以某种方式转换它通过调用假设向量已排序的函数 g 来实现这一点所以我希望 f 的定义如下 f v Module s r s Sort v remember the perm
覆盖主页中最近添加的列表

我想知道是否可以覆盖最近添加的列表在主页中默认行为是任何新提交的项目都会显示在列表中无论其发布日期如何有没有办法覆盖它以便仅发布最新提交的出版物例如两年内或有条件的出版物 if dc date issued gt 2014 显示
计算 PySpark 中列的中位数

我有一个数据框如下所示 parsed date count 2017 12 16 2 2017 12 16 2 2017 12 17 2 2017 12 17 2 2017 12 18 1 2017 12 19 4 2017 12 19

计算 PySpark 中列的中位数

计算 PySpark 中列的中位数 的相关文章

随机推荐

热门标签

计算 PySpark 中列的中位数的相关文章