应用窗口函数计算 pySpark 中的差异

2023-11-30

我在用pySpark，并设置了我的数据框，其中两列代表每日资产价格，如下所示：

ind = sc.parallelize(range(1,5))
prices = sc.parallelize([33.3,31.1,51.2,21.3])
data = ind.zip(prices)
df = sqlCtx.createDataFrame(data,["day","price"])

我申请后得到df.show():

+---+-----+
|day|price|
+---+-----+
|  1| 33.3|
|  2| 31.1|
|  3| 51.2|
|  4| 21.3|
+---+-----+

这很好。我想要另一列包含价格列的日常回报，即类似

(price(day2)-price(day1))/(price(day1))

经过大量研究后，我得知，通过应用以下方法可以最有效地实现这一目标pyspark.sql.window功能，但我不知道如何实现。

您可以使用前一天的列lag函数，并添加额外的列来从两列中执行实际的日常返回，但是您可能必须告诉 Spark 如何对数据进行分区和/或命令它进行滞后，如下所示：

from pyspark.sql.window import Window
import pyspark.sql.functions as func
from pyspark.sql.functions import lit

dfu = df.withColumn('user', lit('tmoore'))

df_lag = dfu.withColumn('prev_day_price',
                        func.lag(dfu['price'])
                                 .over(Window.partitionBy("user")))

result = df_lag.withColumn('daily_return', 
          (df_lag['price'] - df_lag['prev_day_price']) / df_lag['price'] )

>>> result.show()
+---+-----+-------+--------------+--------------------+
|day|price|   user|prev_day_price|        daily_return|
+---+-----+-------+--------------+--------------------+
|  1| 33.3| tmoore|          null|                null|
|  2| 31.1| tmoore|          33.3|-0.07073954983922816|
|  3| 51.2| tmoore|          31.1|         0.392578125|
|  4| 21.3| tmoore|          51.2|  -1.403755868544601|
+---+-----+-------+--------------+--------------------+

这里有更长的介绍Spark 中的窗口函数.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

windowfunctions

apachesparksql

应用窗口函数计算 pySpark 中的差异的相关文章

如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise
在 pyspark 中包装 java 函数

我正在尝试创建一个用户定义的聚合函数我可以从 python 调用它我试图遵循答案this https stackoverflow com questions 33233737 spark how to map python with s
如何找到两个数据帧之间的精确和非精确匹配？

我有两个数据框 df1 id amount fee 1 10 00 5 0 2 20 0 3 0 3 90 130 0 4 120 0 35 0 df2 exId exAmount exFee 1 10 00 5 0 2 20 0 3 0
尝试从 Spark 连接到 Oracle

我正在尝试将 Oracle 连接到 Spark 并希望从某些表和 SQL 查询中提取数据但我无法连接到 Oracle 我尝试过不同的解决方案但没有看到我已按照以下步骤操作如果我需要进行任何更改请纠正我我使用的是 Windows
如何处理 Spark 数据框中外连接的数据倾斜

我有两个数据框正在对 5 列执行外连接下面是我的数据集的示例 uniqueFundamentalSet PeriodId SourceId StatementTypeCode StatementCurrencyId FinancialS
Spark对RDD进行重复数据删除以获得更大的RDD

我有一个从磁盘加载的数据框 df sqlContext read json Users spark stats test json 它包含 500k 行我的脚本在这个大小上运行良好但我想在 5M 行上测试它有没有办法将 df 复制 9
count(distinct) over (partition by... 在 Oracle SQL 中不起作用

我想数一下distinct day number过去 30 天但是 distinct 函数不能与over 如果我删除distinct 它会给我总数day number but day number可以有很多重复的所以这就是为什么我想添加
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
使用 Spark SQL 从 ISO 8601 解析日期时间

想做this https stackoverflow com questions 9321809 format date in mysql select as iso 8601但反之亦然 My dates 采用这种格式YYYY MM DDT
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
为 Spark Thrift 服务器提供仓库目录的路径

我已经设置了 Spark 集群并且成功通过 Spark SQL 连接器连接 Tableau 我从 Spark shell 创建了表并使用 saveAsTable 如何访问从 Tableau 保存的表启动spark thrift服务器时

随机推荐

Netty SSL 主机名验证支持

据我所知没有可以用来在 Netty 中启用 SSL 主机名验证的标志或配置设置我见过使用 SslHandler handshake 返回的 ChannelFuture 添加自定义实现的示例 ChannelFuture handsha
不允许主机 xxxx 连接到此 MySQL 服务器

好吧在阅读同名主题但没有成功后我不得不再次询问并向您展示我的场景我在 Kali Linux 机器上我的 mysql 配置文件 etc my cnf 是这样设置的 bind address 172 16 1 228 我重置了服务无论
C 预处理器：自己实现 __COUNTER__

我目前正在使用 COUNTER 我的 C 库代码中的宏来生成唯一的整数标识符它工作得很好但我看到两个问题它不是任何 C 或 C 标准的一部分也使用的独立代码 COUNTER 可能会感到困惑因此我希望实现一个相当于 COUNTER
AttributeError：'function'对象没有属性'sum'pandas

我在 Pandas 中有以下数据框 count group 11 99435 Bachelor 64900 Just 12 162483 Some College 61782
向非 C++ 程序员解释 C++ SFINAE

C 中的 SFINAE 是什么您能用不懂 C 的程序员可以理解的语言解释一下吗另外 SFINAE 对应于 Python 这样的语言中的什么概念警告这是一个really很长的解释但希望它不仅能真正解释 SFINAE 的作用还能让您
使用 maven-compiler-plugin 进行 Maven 注释处理

我尝试编译包含生成源代码的注释的代码我用maven compiler plugin and build helper maven plugin 我的 POM 看起来像这样
无法将模块函数传递给页面

我有一个名为util用方法getMutedColor和其他一些 getMutedColor依赖于另一个称为rand在同一模块中 page includeJs https cdnjs cloudflare com ajax libs d3 3
对吊装感到困惑

考虑这两个略有不同的提升版本 mylocation dublin function outputPosition alert mylocation mylocation fingal alert mylocation outputPosit
如何将数据库中某些表的所有权从 postgres 更改为另一个用户？

我有一个包含大量表的数据库有些表由 postgres 用户拥有而不是我创建的我想将这些表的所有权转移给我创建的表因为在进行 django migrations 时您只能为 psql 连接设置一个用户和密码并且该用户无权访问 po
PHP中获取iframe的父url

我正在创建一个将在 IFrame 中加载的小部件用户将能够将该小部件放置在自己的网站上如何获取在 javascript 和或 PHP 中使用 IFrame 的网站的 URL IFrame 加载一个 php 文件我在 IFrame 页
jQuery 与 PHP - 性能比较

从性能角度来看哪个是更好的解决方案这是一个非常小的例子 PHP 脚本向 jQuery 返回一个数字需要检查该数字是否为1 页面需要显示 1 人否则为 X 人 PHP 脚本进行此检查并返回 x 个人会更快还是 jQuery 在获取
如何在本地主机上启动 cxf 服务但在 wsdl 中返回外部地址？

我在apache后面使用cxf和jetty通过soap公开web服务目标是启动码头http 本地主机 9000在所有情况下都有 apache 代理但让自动生成的 wsdl 显示一个适合其运行环境的soap address 例如http
Visual C++ 表达式必须具有常量值

有谁知道为什么 Visual Studio 是唯一给我这个错误的编译器表达式必须有一个常量值指大小 include
带有运行时参数的 dlsym/dlopen

我正在尝试做类似以下的事情 enum types None Bool Short Char Integer Double Long Ptr int main int argc char args enum types params 10 0
禁用iPhone“保存图像”弹出窗口[重复]

这个问题在这里已经有答案了我正在尝试禁用保存图像对话框在 iPhone 任何 iOS 设备上显示当用户在 Safari 中时他们可以将手指放在图像上然后将该图像直接保存到手机中他们有办法用 javascript jquery
如何在 Zend Framework 2 中使用 cookie？ [关闭]

很难说出这里问的是什么这个问题模棱两可含糊不清不完整过于宽泛或言辞激烈无法以目前的形式合理回答如需帮助澄清此问题以便重新打开访问帮助中心我不明白如何在 ZF2 中使用 cookie 有人可以建议一些带有 set 和 get
如何在 SwiftUI 中的 firebase 查询期间显示加载动画

我正在使用 SwiftUI 构建一个应用程序并有一个 ObservableObject 用于查询我的 Firestore 数据库我的文档相对较大并且经常需要查询很多文档因此我想在查询下载数据时加入某种加载指示器这是我创建的 Obs
使用 Python 从直接 URL 下载视频

我想用python下载视频我尝试使用 youtube dl 但我希望从中下载视频的网站不受支持如何使用 Python 下载视频首先我尝试在点击此链接后从 keepvid com 获取我想要下载的视频的直接链接http www kmc
Flex 侧边栏：如何增长到 100% 的高度

我正在使用 CSS flex 构建一个侧边栏我需要它垂直增长以填充整个屏幕的垂直高度这是我正在做的事情的框架 JSF 在这里 app display flex flex direction row align items flex st
应用窗口函数计算 pySpark 中的差异

我在用pySpark 并设置了我的数据框其中两列代表每日资产价格如下所示 ind sc parallelize range 1 5 prices sc parallelize 33 3 31 1 51 2 21 3 data ind z

应用窗口函数计算 pySpark 中的差异

应用窗口函数计算 pySpark 中的差异 的相关文章

随机推荐

热门标签

应用窗口函数计算 pySpark 中的差异的相关文章