如何计算 pyspark dataframe 中的每日基础（时间序列）

2024-05-04

所以我有一个数据框，我想计算一些数量，比如说每天......假设我们有 10 列 col1，col2，col3，col4 ... coln，其中每列都依赖于值col1、 col2、 col3 、 col4 .. 等等，日期根据id..

    +--------+----+----              +----+
        date |col1|id  |col2|.    .  |coln
    +--------+----+----              +----+
    2020-08-01| 0|  M1 |   .    .   .    3|
    2020-08-02| 4|  M1 |                10|
    2020-08-03| 3|  M1 |   .     .   .  9 |
    2020-08-04| 2|  M1 |    .   .    .  8 |
    2020-08-05| 1|  M1 |   .   .     .  7 |
    2020-08-06| 0|  M1 |   .    .   .   0 |
    2020-08-01| 0|  M2 |   .   .     .  0 |
    2020-08-02| 0|  M2 |    .   .   . . 1 |
    2020-08-03| 0|  M2 |    .   .  . .  2 |
   +---------+----+----+-----------------+

假设我们执行这个数据帧，这个 df 中可能有更多的列...... 为了清楚起见，我们假设今天的日期是 2020 年 8 月 1 日。我们做了一些计算，我们在 coln 得到了一些输出coln =3在 2020-08-01，我想在 2020-08-02 coln == col1 即 col1 ==3 并在 2020-08-02 进行计算等等......所以 df 的例子看起来像下面这个

    +--------+----+----              +----+
        date |col1|id  |col2|.    .  |coln
    +--------+----+----              +----+
    2020-08-01| 0|  M1 |   .    .   .    3|
    2020-08-02| 3|  M1 |                10|
    2020-08-03|10|  M1 |   .     .   .  9 |
    2020-08-04| 9|  M1 |    .   .    .  8 |
    2020-08-05| 8|  M1 |   .   .     .  7 |
    2020-08-06| 7|  M1 |   .    .   .   0 |
    2020-08-01| 0|  M2 |   .   .     .  1 |
    2020-08-02| 1|  M2 |    .   .   . . 2 |
    2020-08-03| 2|  M2 |    .   .  . .  0 |
   +---------+----+----+-----------------+

如果你们能给我一个如何在 pyspark 中完成此操作的例子，那就太好了。

example:比方说col3 = col1+ col2最初，假设 col1 全部为 0。

df1_schema = StructType([StructField("Date", StringType(), True),\
                              StructField("col1", IntegerType(), True),\
                             StructField("id", StringType(), True),\
                       StructField("col2", IntegerType(), True),\
                       StructField("col3", IntegerType(), True),\
                        StructField("coln", IntegerType(), True)])
df_data = [('2020-08-01',0,'M1',3,3,2),('2020-08-02',0,'M1',2,3,1),\
           ('2020-08-03',0,'M1',3,3,3),('2020-08-04',0,'M1',3,3,1),\
            ('2020-08-01',0,'M2',1,3,1),('2020-08-02',0,'M2',-1,3,2)]
rdd = sc.parallelize(df_data)
df1 = sqlContext.createDataFrame(df_data, df1_schema)
df1 = df1.withColumn("Date",to_date("Date", 'yyyy-MM-dd'))
df1.show()

+----------+----+---+----+----+----+
|      Date|col1| id|col2|col3|coln|
+----------+----+---+----+----+----+
|2020-08-01|   0| M1|   3|   3|   2|
|2020-08-02|   0| M1|   2|   3|   1|
|2020-08-03|   0| M1|   3|   3|   3|
|2020-08-04|   0| M1|   3|   3|   1|
|2020-08-01|   0| M2|   1|   3|   1|
|2020-08-02|   0| M2|  -1|   3|   2|
+----------+----+---+----+----+----+

所以让我们重点关注2020-08-01这是开始，我们想要的是 col1+col2，即 3 = col3。在依赖于 col3.. col4... col5.. 的第 n 次计算之后，假设我们得到了某个数字 coln= 3。计算完成后，我们想要2020-08-02， coln=3 应该位于 col1 所以它是在2020-08-01计算完成后动态变化的

所以我想要的 df 看起来像这样

+----------+----+---+----+----+----+
|      Date|col1| id|col2|col3|coln|
+----------+----+---+----+----+----+
|2020-08-01|   0| M1|   3|   3|   2|
|2020-08-02|   2| M1|   2|   5|   1|
|2020-08-03|   1| M1|   3|   4|   3|
|2020-08-04|   3| M1|   3|   6|   1|
|2020-08-01|   1| M2|   1|   4|   1|
|2020-08-02|   1| M2|  -1|   0|   2|
+----------+----+---+----+----+----+

EDIT 2:

df1_schema = StructType([StructField("Date", StringType(), True),\
                              StructField("col1", IntegerType(), True),\
                             StructField("id", StringType(), True),\
                       StructField("col2", IntegerType(), True),\
                       StructField("col3", IntegerType(), True),\
                       StructField("col4", IntegerType(), True),\
                        StructField("coln", IntegerType(), True)])
df_data = [('2020-08-01',0,'M1',3,3,2,2),('2020-08-02',0,'M1',2,3,0,1),\
           ('2020-08-03',0,'M1',3,3,2,3),('2020-08-04',0,'M1',3,3,2,1),\
            ('2020-08-01',0,'M2',1,3,3,1),('2020-08-02',0,'M2',-1,3,1,2)]
rdd = sc.parallelize(df_data)
df1 = sqlContext.createDataFrame(df_data, df1_schema)
df1 = df1.withColumn("Date",to_date("Date", 'yyyy-MM-dd'))
df1.show()
+----------+----+---+----+----+----+----+
|      Date|col1| id|col2|col3|col4|coln|
+----------+----+---+----+----+----+----+
|2020-08-01|   0| M1|   3|   3|   2|   2|
|2020-08-02|   0| M1|   2|   3|   0|   1|
|2020-08-03|   0| M1|   3|   3|   2|   3|
|2020-08-04|   0| M1|   3|   3|   2|   1|
|2020-08-01|   0| M2|   1|   3|   3|   1|
|2020-08-02|   0| M2|  -1|   3|   1|   2|
+----------+----+---+----+----+----+----+

所以假设 coln = col4 - col2 那么

+----------+----+---+----+----+----+----+
|      Date|col1| id|col2|col3|col4|coln|
+----------+----+---+----+----+----+----+
|2020-08-01|   0| M1|   3|   3|   2|  -1|
|2020-08-02|  -1| M1|   2|   1|   0|  -2|
|2020-08-03|  -2| M1|   3|   1|   2|  -1|
|2020-08-04|  -1| M1|   3|   2|   2|  -1|
|2020-08-01|   0| M2|   1|   1|   3|   2|
|2020-08-02|   2| M2|  -1|   1|   1|   2|
+----------+----+---+----+----+----+----+

这是您可以使用 Spark SQL 内置函数处理的一类问题总计的 https://spark.apache.org/docs/latest/api/sql/index.html#aggregate（要求火花2.4+），下面概述了基本思想：

from pyspark.sql.functions import sort_array, collect_list, struct, to_date

cols = ['Date', 'col1', 'col2', 'col3', 'coln']

df_new = df1.groupby('id') \
    .agg(sort_array(collect_list(struct(*cols))).alias('dta')) \
    .selectExpr("id", """  
      inline( 
        aggregate( 
          /* expr: iterate through the array `dta` from the 2nd to the last items*/
          slice(dta,2,size(dta)-1), 
          /* start: AKA. the zero value which is an array of structs 
           * with a single element dta[0]
           */
          array(dta[0]), 
          /* merge: do the calculations */
          (acc, x) ->   
            concat(acc, array(named_struct( 
              'Date', x.Date, 
              'col1', element_at(acc, -1).coln, 
              'col2', x.col2, 
              'col3', element_at(acc, -1).col3 + x.col2, 
              'coln', x.col3 - x.col2 
            )))  
         )    
       )    
   """)

Output:

df_new.show()
+---+----------+----+----+----+----+ 
| id|      Date|col1|col2|col3|coln|
+---+----------+----+----+----+----+
| M1|2020-08-01|   0|   3|   3|   2|
| M1|2020-08-02|   2|   2|   5|   1|
| M1|2020-08-03|   1|   3|   8|   0|
| M1|2020-08-04|   0|   3|  11|   0|
| M2|2020-08-01|   0|   1|   3|   1|
| M2|2020-08-02|   1|  -1|   2|   4|
+---+----------+----+----+----+----+

Where:

我们对相同的行进行分组id并对它们进行排序Date，将结果结构数组命名为dta
在聚合函数中，我们初始化acc带有结构体数组array(dta[0])然后遍历数组dta从第二项到最后一项使用slice https://spark.apache.org/docs/latest/api/sql/index.html#slice功能
in the merge聚合函数的一部分，您可以使用x.col1, x.coln等引用同一日期的值并使用element_at(acc, -1).col1, element_at(acc, -1).coln等来引用前一个日期的值。
在合并函数中，我们使用concat(acc, array(...))将新元素追加到结构数组中acc
use inline https://spark.apache.org/docs/latest/api/sql/index.html#inline函数来分解上面的结构数组acc
这里假设日期是连续的，如果存在缺失日期，可以添加一些IF条件。例如计算col3 below:
```
IF(datediff(x.Date, element_at(acc, -1).Date) = 1, element_at(acc, -1).coln, 0) + x.col2
```

顺便提一句。我没有使用这个例子coln = col4 - col2, using con3 = col3_prev + col2相反，我认为这是一个更好的例子。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachesparksql

PySpark

如何计算 pyspark dataframe 中的每日基础（时间序列）的相关文章

如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
pyspark通过特定键加入rdd

我有两个 rdd 需要将它们连接在一起它们看起来像下面这样 RDD1 u 2 u 100 2 u 1 u 300 1 u 1 u 200 1 RDD2 u 1 u 2 u 1 u 3 我想要的输出是 u 1 u 2 u 100 2 所以我
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
pyspark：聚合列中最常见的值

aggregrated table df input groupBy city income bracket agg count suburb alias suburb sum population alias population sum
使用什么工具来可视化逻辑和物理查询计划？

我很熟悉explain 还有 WebUI 我很好奇是否有任何工具可以生成优化前后逻辑物理计划的树结构图像也就是返回的信息explain 作为图像 PNG 或 JPG 之类的图片我自己从未听说过但您可以使用 Web UI 查看物理计划

随机推荐

如何在 Mac 上的 Safari 中删除所选元素的光泽？

在 Mac 和 iOS 设备上的 Safari 中
如何使用 ClickOnce 安装 COM

我已经安装了使用 TeeChart ActiveX COM 使用 ClickOnce 绘制图表的组件如果我使用 regsvr32 teechart8 ocx 手动注册 TeeChart 我的应用程序工作正常但我想要并且需要使用安装应用
节点 --experimental-modules，请求的模块不提供名为的导出

我已经安装了 Node 8 9 1 v10 5 0 中也出现同样的问题我正在尝试在文件中使用来自 npm 包的命名导入 mjs import throttle from lodash I run node experimental mod
数组中的唯一条目

我有以下内容将前 10 个 URL 存储到会话中 function curPageURL pageURL http if SERVER HTTPS on pageURL s pageURL if SERVER SERVER PORT 80
字节码相对于本机代码有哪些优点？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Apache Beam：具有无限源的批处理管道

我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据数据来自Google PubSub 它是无限制的所以目前我正在使用流媒体管道然而事实证明拥有一个 24 7 运行的流管道是相当昂贵的为了降
如何为 HTML 中的文件输入设置值？

我该如何设置这个值
如何在ubuntu中安装c++的mongodb驱动？

我想使用 c for mongoDB 开发一个相当简单的应用程序我遵循他们的教程 http www mongodb org pages viewpage action pageId 133415 http www mongodb org
如何使用fread和fwrite函数读写二进制文件？

您好在我的项目中我必须读取一个 bin 文件其中包含以下形式的传感器数据short 16 bit values 我正在这样做使用fread函数进入缓冲区但我觉得读入没有正确发生我是说我写的和读到的不一致你们能建议这里出了什么问题
使用 jQuery/JavaScript 提醒特殊字符

如何在 Javascript jQuery 警报中显示带有特殊字符例如的字符串例如我想显示一个消息框价格为 10 欧元但是当我使用下面的代码时 alert The Price is euro 10 消息框中显示的输出是 The
如何在 EF Core 5 中配置自定义 SQL 的导航属性

我有一个自定义 SQL 语句来获取客户的最大订单我没有名为MaxOrders 这只是一个自定义查询我正在使用以下方式获取客户记录和相关对象Include dbcontext Customers Include x gt x MaxOrd
AttributeError：“str”对象没有属性“decode”

我将使用 pip 软件包安装程序在我的电脑上安装 ZeroMQ 库我用https learning 0mq with pyzmq readthedocs org en latest pyzmq basics html installati
添加信号接收器后，Django 从头开始迁移失败：“没有这样的表”

我在代码中添加了一些信号接收器一切都工作正常直到我将其推送到版本控制并且 CI CD 管道失败在尝试迁移时它会抱怨 django db utils OperationalError no such table badges badg
（一元）* 运算符在此 Ruby 代码中起什么作用？

给出 Ruby 代码 line first name mickey last name mouse country usa record Hash line split 我理解第二行中的所有内容除了操作员它在做什么以及相关文档在哪里
自动将测试从 JUnit 3 迁移到 JUnit 4 的最佳方法？

我有一堆 JUnit 3 类它们扩展了 TestCase 并希望自动将它们迁移为带有注释的 JUnit4 测试例如 Before After Test etc 有什么工具可以在大批量运行中执行此操作吗在我看来这并没有那么难那么让我
从一个项目调用控制器到另一个项目

我正在使用 Asp net MVC4 和 razor 我想知道如何在同一解决方案中从一个项目调用控制器到另一个项目我是 MVC4 的新手您可以简单地将控制器添加到另一个项目类库或 MVC 项目等我们有几个共享控制器的项目 webAP
Swift 2：IBOutlet 集合 [UIButton]！内存泄漏

最近在我的应用程序中我发现我的 UIButton 出口集合正在泄漏内存我所拥有的只是 IBOutlet var TabBarButtons UIButton And from Instrument 谁能告诉我出了什么问题吗随着时间的推
使用 SimpleDateFormat 分别获取日、月和年

我有一个SimleDateFormat像这样 SimpleDateFormat format new SimpleDateFormat MMM dd yyyy hh mm String date format format Date par
插件架构中的反射与属性

我正在开发一个在启动时从子目录加载插件的应用程序目前我正在通过使用反射来迭代每个程序集的类型并查找实现 IPluginModule 接口的公共类来实现此目的由于反射涉及性能影响并且我预计一段时间后会有多个插件我想知道定义在程序集级别
如何计算 pyspark dataframe 中的每日基础（时间序列）

所以我有一个数据框我想计算一些数量比如说每天假设我们有 10 列 col1 col2 col3 col4 coln 其中每列都依赖于值col1 col2 col3 col4 等等日期根据id date col1 id col2 co

如何计算 pyspark dataframe 中的每日基础（时间序列）

如何计算 pyspark dataframe 中的每日基础（时间序列） 的相关文章

随机推荐

热门标签

如何计算 pyspark dataframe 中的每日基础（时间序列）的相关文章