如何使用 Window() 计算 PySpark 中的滚动中位数？

2024-04-07

如何计算前 3 个值的窗口大小的美元滚动中位数？

输入数据

dollars timestampGMT       
25      2017-03-18 11:27:18
17      2017-03-18 11:27:19
13      2017-03-18 11:27:20
27      2017-03-18 11:27:21
13      2017-03-18 11:27:22
43      2017-03-18 11:27:23
12      2017-03-18 11:27:24

预期输出数据

dollars timestampGMT          rolling_median_dollar
25      2017-03-18 11:27:18   median(25)
17      2017-03-18 11:27:19   median(17,25)
13      2017-03-18 11:27:20   median(13,17,25)
27      2017-03-18 11:27:21   median(27,13,17)
13      2017-03-18 11:27:22   median(13,27,13)
43      2017-03-18 11:27:23   median(43,13,27)
12      2017-03-18 11:27:24   median(12,43,13)

下面的代码确实移动了 avg 但 PySpark 没有 F.median()。

pyspark：使用时间序列数据的滚动平均值 https://stackoverflow.com/questions/45806194/pyspark-rolling-average-using-timeseries-data

编辑1：挑战是median()函数不退出。我不能做

df = df.withColumn('rolling_average', F.median("dollars").over(w))

如果我想要移动平均线我可以这样做

df = df.withColumn('rolling_average', F.avg("dollars").over(w))

编辑2：尝试使用approxQuantile()

windfun = Window().partitionBy().orderBy(F.col(date_column)).rowsBetwe‌en(-3, 0) sdf.withColumn("movingMedian", sdf.approxQuantile(col='a', probabilities=[0.5], relativeError=0.00001).over(windfun))

但出现错误

AttributeError: 'list' object has no attribute 'over'

EDIT 3

请给出没有 Udf 的解决方案，因为它不会从催化剂优化中受益。

一种方法是收集$dollars列作为每个窗口的列表，然后使用udf:

from pyspark.sql.window import Window
from pyspark.sql.functions import *
import numpy as np 
from pyspark.sql.types import FloatType

w = (Window.orderBy(col("timestampGMT").cast('long')).rangeBetween(-2, 0))
median_udf = udf(lambda x: float(np.median(x)), FloatType())

df.withColumn("list", collect_list("dollars").over(w)) \
  .withColumn("rolling_median", median_udf("list")).show(truncate = False)

+-------+---------------------+------------+--------------+
|dollars|timestampGMT         |list        |rolling_median|
+-------+---------------------+------------+--------------+
|25     |2017-03-18 11:27:18.0|[25]        |25.0          |
|17     |2017-03-18 11:27:19.0|[25, 17]    |21.0          |
|13     |2017-03-18 11:27:20.0|[25, 17, 13]|17.0          |
|27     |2017-03-18 11:27:21.0|[17, 13, 27]|17.0          |
|13     |2017-03-18 11:27:22.0|[13, 27, 13]|13.0          |
|43     |2017-03-18 11:27:23.0|[27, 13, 43]|27.0          |
|12     |2017-03-18 11:27:24.0|[13, 43, 12]|13.0          |
+-------+---------------------+------------+--------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

如何使用 Window() 计算 PySpark 中的滚动中位数？的相关文章

使用 selectExpr 选择其中包含特殊字符的 Spark 数据框列

我所处的场景是我的列名称Munic pio字母上有重音 My selectExpr命令因此失败有办法解决吗基本上我有类似以下的表达式 selectExpr CAST Munic pio as string as Munic pio 我真
找出分区号/id

Spark中有没有一种方法方法可以找出分区ID 编号在这里举这个例子 val input1 sc parallelize List 8 9 10 3 val res input1 reduce x y gt println Insid
为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。（即使使用 uber-jar）？

我使用 HDP 2 6 3 0 和 Spark2 包 2 2 0 我正在尝试使用结构化流 API 编写 Kafka 消费者但将作业提交到集群后出现以下错误 Exception in thread main java lang ClassN
如何使用增量值向 Pyspark 中的 DataFrame 添加列？

我有一个名为 df 的 DataFrame 如下所示 Atr1 Atr2 Atr3 A A A B A A C A A 我想向其中添加一个具有增量值的新列并获取以下更新的 DataFrame Atr1 Atr2 Atr3
非时间戳列上的 Spark 结构化流窗口

我收到以下形式的数据流 id timestamp val xxx 1 12 15 25 50 1 2 12 15 25 30 1 3 12 15 26 30 2 4 12 15 27 50 2 5 12 15 27 30 3 6 12 15
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
获取 Spark 中组的最后一个值

我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20
Spark数据框中过滤的多个条件

我有一个包含四个字段的数据框其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件我尝试了以下查询但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
参数为动态的 Spark 滞后函数

我需要在spark中实现lag函数我可以像下面这样做使用 hive temp Spark 表中的一些数据假设 DF 有这些行 lagno value 0 100 0 200 2 null 3 null 其中第一列是您要使用的实际滞后数
在Spark的客户端模式下，驱动程序需要网络访问远程执行程序？

使用火花时在客户端模式例如yarn client 运行驱动程序的本地计算机是否直接与运行远程执行程序的集群工作节点通信如果是是否意味着机器运行驱动程序需要具有对工作节点的网络访问权限那么master节点向集群请求资源并将wor
如果为 null 则替换为 0，否则在同一列中使用默认值

在SparkR shell 1 5 0中创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2
AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo
使用Log4j在日志中输出Spark应用程序id

我有一个用于 Spark 应用程序的自定义 Log4j 文件我想输出 Spark 应用程序 ID 以及消息和日期等其他属性因此 JSON 字符串结构如下所示 name time date level thread message app
Spark 数据框添加带有随机数据的新列

我想向数据框中添加一个新列其值由 0 或 1 组成我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
如何查找组中第一个非空值？（使用dataset api进行二次排序）

我正在研究一个代表事件流的数据集例如从网站跟踪事件时触发所有事件都有一个时间戳我们经常遇到的一个用例是尝试查找给定字段的第一个非空值例如类似的东西最能让我们到达那里 val eventsDf spark read json jso
pyspark.pandas 与 pandas 有什么区别？

开始在 Databricks 上使用 PySpark 我发现我可以导入pyspark pandas旁边pandas 有什么不同我认为这不像koalas right PySpark 是 Python 中 Apache Spark 的接口它
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
使用列值作为 Spark DataFrame 函数的参数

考虑以下数据框 letter rpt X 3 Y 1 Z 2 可以使用以下代码创建 df spark createDataFrame X 3 Y 1 Z 2 letter rpt 假设我想重复每行列中指定的次数rpt 就像这样questio
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J

随机推荐

如何查看sql server表中已删除的记录？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要从sql server表中查看已删除的记录行实际上我正在使用这个命令 DBCC LOG My
kaminari 和 order_by

因此我列出了我网站的所有成员并按名称对他们进行分组以便更好地组织列表因此在我看来我的所有成员均按其成员姓名的第一个字母分组例如 B Bakedfish Beercan Dan Bigmike33x C Cynicalassas
列出 Notion 上集成访问的所有数据库

有没有更有效的方法来获取所有数据库的列表我尝试过使用https api notion com v1 databases端点但现在已弃用另一种选择是 search端点但它也返回数据库中的所有记录有人可以提供更好的方法来列出集成访问的
无法读取 R 中的 shapefile

我尝试使用以下代码在 Mac 上打开 shp 文件 library tidyverse library sf library rgeos sf trees raw lt readr read csv https raw githubuser
使用 RSelenium 读取下拉菜单元素中的值

我正在使用 RSelenium 导航到站点并与元素交互问题使用 RSelenium 如何读取下拉菜单中的选项列表以便我可以识别可用的最新月份并使用它将下拉菜单设置为正确的值 On 某个网站 http jamaserv jama or
使用 angularjs 在本地驱动器中上传文件

我是 angularjs 的初学者我读了很多关于文件上传等的内容但找不到我将进一步描述的此案例的任何主题我想在下面的代码中通过按钮带有搜索名称来选择一个文件然后当我们单击第二个按钮带有上传名称时我选择在我制作的本地驱动器
根据选择的选项更新输入值

我正在尝试找出更新某些内容的最佳方法input值取决于从中选择的选项select 这是我想要实现的目标我有一个显示域名详细信息的页面我有一个表格input and select这允许更改价格这input包含当前域名价格并允许用户输入新
Python 中的就地快速排序

我必须用我选择的语言来实现作业的快速排序算法所以我选择了 Python 在讲座中我们被告知 QuickSort 内存效率高因为它就地工作即它没有用于递归的输入数组部分的额外副本考虑到这一点我尝试在 Python 中实现 Qui
使用 jquery 获取元素的可见高度而不是其实际高度

这篇文章是相关的this one https stackoverflow com questions 14125303 change target of a link based on what is currently displayed
无法在新 Mac 上打开 Xcode 项目

我想我在这里犯了一个错误几个月前我设计了一个应用程序甚至在应用程序商店中找到了它从那时起我就买了一台新的Mac 我将 Xcode 项目文件复制到我的新 Mac 上我几个月来第一次回来看它但什么也没有打开我有时会收到无法解析的警告
使用 JavaScript 更改 IE 中的类型

下面的代码适用于除 IE 之外的所有网络浏览器
解决 Kotlin MPP 中的第三方 cocoapod 依赖关系

我正在尝试设置一个用 Kotlin Multiplatform 编写的跟踪库来支持我们所有的移动客户端 Android 测试进展顺利通过 gradle 集成 Snowplow 我还设法通过 cocoapods 将 Snowplow 集成到
java 负向前瞻

我需要一个表达式来捕获这样的字符串 A 不是至少 5 且最多 6 位数字的字符串 B 换句话说捕获不是以下内容的任何内容 A 0 9 0 9 0 9 0 9 0 9 B A 0 9 0 9 0 9 0 9 0 9 0 9 B 我尝试过消极
如何检查libc++是否安装？

我正在从源头构建一些东西我的系统的 gcc 和 stdlibc 太旧了但是我可以使用 clang 构建默认情况下 clang 使用 stdlibc 但可以选择安装 libc 以供 clang 使用检查 libc 是否与 clang
调用未定义的函数 apache_request_headers()

我刚刚将脚本切换到不同的服务器在以前的服务器上这工作得很好现在我已经将它们切换到不同的服务器我无法理解这个问题我不确定这会有帮助但这是相关的代码 headers apache request headers PHP版本是 PHP
如何将SQL用户自定义函数添加到实体框架中？

我可以像在 dbml 中那样向 edmx 文件添加 SQL 函数吗如果可以的话我该怎么做如果我不能有什么解决方法吗我尝试谷歌但找不到任何关于如何做到这一点的具体答案根据给定的答案我创建了一个存储过程并尝试添加导入函数但它
java 7 接口中默认方法的替代方案（仅在 Java 8 中）

我想在我的一个接口类中使用默认方法然后我意识到这仅在 Java 8 中可用而我们正在使用 Java 7 在 Java 7 中实现类似的最佳方法是什么将方法签名放在接口中就像 Java 8 中一样将您的方法默认实现放在实现该接口的抽
无法通过代理建立隧道。代理通过 https 返回“HTTP/1.1 407”

我尝试通过需要身份验证的 https 连接到服务器此外我中间有一个也需要身份验证的 http 代理我使用 ProxyAuthSecurityHandler 向代理进行身份验证使用 BasicAuthSecurityHandler 向
Rails 资源未更新

我有一个 Rails 3 1 应用程序由于某种原因当我更改 CSS 时更改不会显示我做到了bundle exec rake assets precompile它曾经有帮助但现在无论如何我都坚持使用旧的CSS 由于您的资产现已预编译
如何使用 Window() 计算 PySpark 中的滚动中位数？

如何计算前 3 个值的窗口大小的美元滚动中位数输入数据 dollars timestampGMT 25 2017 03 18 11 27 18 17 2017 03 18 11 27 19 13 2017 03 18 11 27 20 2

如何使用 Window() 计算 PySpark 中的滚动中位数？

如何使用 Window() 计算 PySpark 中的滚动中位数？ 的相关文章

随机推荐

热门标签

如何使用 Window() 计算 PySpark 中的滚动中位数？的相关文章