使用 DataFrame 按组计算 Python Spark 累积和

2023-12-11

如何专门使用以下方法计算每组的累积总和DataFrame abstraction;并在PySpark?

示例数据集如下：

df = sqlContext.createDataFrame( [(1,2,"a"),(3,2,"a"),(1,3,"b"),(2,2,"a"),(2,3,"b")], 
                                 ["time", "value", "class"] )

+----+-----+-----+
|time|value|class|
+----+-----+-----+
|   1|    2|    a|
|   3|    2|    a|
|   1|    3|    b|
|   2|    2|    a|
|   2|    3|    b|
+----+-----+-----+

我想添加一个累积总和列value对于每个class分组（有序）time多变的。

这可以使用窗口函数和窗口范围内的 Window.unboundedPreceding 值的组合来完成，如下所示：

from pyspark.sql import Window
from pyspark.sql import functions as F

windowval = (Window.partitionBy('class').orderBy('time')
             .rangeBetween(Window.unboundedPreceding, 0))
df_w_cumsum = df.withColumn('cum_sum', F.sum('value').over(windowval))
df_w_cumsum.show()

+----+-----+-----+-------+
|time|value|class|cum_sum|
+----+-----+-----+-------+
|   1|    3|    b|      3|
|   2|    3|    b|      6|
|   1|    2|    a|      2|
|   2|    2|    a|      4|
|   3|    2|    a|      6|
+----+-----+-----+-------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

使用 DataFrame 按组计算 Python Spark 累积和的相关文章

Spark Python：标准缩放器错误“不支持... SparseVector”

我又撞到了堵墙我是一个新手所以我不得不再次依赖你强大的知识我从一个数据集开始如下所示 user account id user lifetime user no outgoing activity in days user acco
如何从DataFrame中获取最后一行？

我有一个DataFrame 该DataFrame有两列 value 和 timestamp timestmp 是有序的我想获取DataFrame的最后一行我该怎么办这是我的输入 value timestamp 1 1 4 2 3 3
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计
如何在 PySpark 中使用 foreach 或 foreachBatch 写入数据库？

我想使用 Python PySpark 从 Kafka 源到 MariaDB 进行 Spark 结构化流处理 Spark 2 4 x 我想使用流式 Spark 数据帧而不是静态数据帧或 Pandas 数据帧看来必须要用foreach o
Spark toLocalIterator 和迭代器方法之间的区别

在编写 Spark 程序时我遇到了这个toLocalIterator 方法之前我只使用iterator method 如果有人曾经使用过这种方法请点亮我在使用时遇到foreach and foreachPartitionSpark程序
如何指定spark-submit使用的Python版本？

我有两个版本的Python 当我使用 Spark submit 启动 Spark 应用程序时该应用程序使用默认版本的 Python 但是我想使用另一个如何指定spark submit使用的Python版本您可以设置PYSPARK P
将spark.local.dir设置为不同的驱动器

我正在尝试在 Windows 10 上设置独立 Spark 我想设置spark local dir to D spark tmp tmp 目前它似乎正在使用C Users
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中
如何从 pyspark 中的数据框中选择一系列行

我有一个包含 10609 行的数据框我想一次将 100 行转换为 JSON 并将它们发送回 Web 服务我尝试过使用 SQL 的 LIMIT 子句例如 temptable spark sql select item code 1 fr
使用 Python 用另一个嵌套 Json 更新嵌套 Json

例如我有一套完整的嵌套 JSON 我需要使用另一个嵌套 JSON 中的最新值来更新此 JSON 谁能帮我这个我想在 Pyspark 中实现这个完整的 Json 看起来像这样 email email protected cdn cgi
scalac 编译生成“对象 apache 不是包 org 的成员”

我的代码是 import org apache spark SparkContext 它可以在交互模式下运行但是当我使用 scalac 编译它时出现以下错误消息对象 apache 不是包 org 的成员这似乎是路径的问题但我不知道
最大模式长度 fpgrowth apache Spark

我正在尝试使用 Spark Scala 运行关联规则我首先创建一个 FPGrowth 树并将其传递给关联规则方法但是我希望添加最大模式长度参数以限制我想要在左侧和右侧的项目数量我只想要项目之间的一对一关联 val model ne
根据条件组合 Spark 数据帧列中的多行

我正在尝试根据条件组合 Spark 数据框中的多行这是我的数据框 df username qid row no text a 1 1 this a 1 2 is d 2 1 the a 1 3 text d 2 2 ball 我希望它看起
如何在spark中将矩阵转换为RDD[Vector]

如何转换自org apache spark mllib linalg Matrix to RDD org apache spark mllib linalg Vector 在火花该矩阵是由 SVD 生成的我正在使用 SVD 的结果进行聚
将 PySpark 连接到 AWS Redshift 时出错

一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储我遵循的方法是使用内置的 Redshift JDBC pyspark jars usr share aws redshift
Spark 上的 Kubernetes 驱动程序 pod 清理

我在 kubernetes 1 19 上运行 Spark 3 1 1 作业完成后执行程序 Pod 就会被清理但驱动程序 Pod 仍处于完成状态驱动程序完成后如何清理要设置任何配置选项吗 NAME READY STATUS RESTA
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str

随机推荐

Ionic 自定义模态动画

Ionic modal 带有标准动画slide in up 我们是否可以将动画更改为fade in 为了添加 Ionic Modal 的自定义过渡我们将使用 Ionic Modal 选项enterAnimation and leaveAn
Tcl 相当于 UNIX“cp -pL”命令

UNIX cp pL 命令的 Tcl 等效项是什么我找不到它文件命令描述对于单个文件 a 获取文件的真实路径 b 复制它 c 设置属性修改时间和访问时间不幸的是似乎没有任何方法可以设置更改时间 Windows 上的创建时间 set
Django：将实例保存到外键字段时出现 ValueError

我正在尝试保存模型的实例但收到 ValueError ValueError Cannot assign
反应-为什么只有我的第一组选定的行在移走之前变成灰色（其余的在单击“应用”按钮后就消失了）？

当我点击下面的按钮时Show列例如Potato Soup它以灰色选择所有行当我单击Apply按钮然后该行被隐藏好吧这就是我想要的但是当我尝试用同样的技巧做之后Pea Soup 该行不会变成灰色而是直接隐藏但我希望灰线也出现在
Dateformatter 从字符串获取日期

我的绳子是这样的2012 12 08 17 00 00 0 现在我尝试使用 NSDate 格式化程序从此字符串中检索日期我的代码是 NSDateFormatter df NSDateFormatter alloc init df setD
“javac”不被识别为内部或外部命令

我必须将 Matlab 算法转换为 Java 为此我使用 matlab builder ja 工具箱在执行所有必要的步骤后构建失败并显示此错误 javac 不被识别为内部或外部命令可操作程序或批处理文件错误调用 javac 时发
编写一个满足以下测试的函数 f

我有一个问题一直困扰着我需要帮助解决下面是一个需要解决的测试我已经成功地整合了一个解决方案该解决方案适用于 85 的覆盖范围但它是我坚持的最后 15 describe f function it should work funct
如何在每次迭代时仅从一个类中对批次进行采样

我想在一个 ImageNet 数据集每个类有 1000 个类每个类大约有 1300 张图像上训练一个分类器由于某种原因我需要每个批次包含来自同一类别的 64 个图像以及来自不同类别的连续批次使用最新的 TensorFlow 是
为什么 Angular 2+ innerHTML 在一条语句中多次调用方法，如何解决这个问题

我有这样的模板视图 p p 并且 ts 文件就像 import Component from angular core Component selector my app templateUrl app component html sty
如何以正确的格式将抓取的数据导出到 csv 文件？

I made an improvement to my code according to this suggestion from paultrmbrth what i need is to scrape data from pages
我想知道为什么用向量可以成功而用数组却不行？

这成功了 include
从 Visual Studio 2019 中替换 WiX 变量

我正在努力本地化我在 WiX 工具集中制作的安装程序并尝试根据生成的 msi 更改我的许可协议如果 msi 来自调试中的 en us 文件夹那么它应该是英语如果位于 fr fr 文件夹中则应该是法语我目前分别有英语和法语的两个许
获取 RTI DDS 上 DataWriter/Publisher 的 IP 地址？

我在用RTI DDS 5 2 3 17并想获取该设备的 IP 地址DataWriter Publisher添加到一些日志消息我该如何去做呢我在形成做什么的逻辑时遇到了一些困难无法以标准化方式访问 DataWriter 的 IP 地址
不使用多部分httppost方法在android中发布图像文件

这个问题借用自同样的问题因为我遇到了一些问题在服务器端发布图像期间图像详细信息无法进入服务器端像这样无法发布图像文件信息php服务器用户ID正常但图像文件信息无法发布在这种情况下图像在服务器上保存成功我无法获取图像的php
如何保护ajaxRequest.open php脚本

我是使用 AJAX 的新手我只是按照教程使用 AJAX 从数据库中检索一些信息并将其输出到页面上有一行我调用了一个 php 脚本这是进行数据库查询的地方并且结果被回显我有点担心由于文件名在前端可见并且它的唯一目的是直接输出数据
使用 EnumDisplayDevices 获取显示器的名称

我碰到this帖子中有人想使用 EnumDisplayDevices 找出他们的显示器的名称这正是我想要的我尝试在 C 中做类似的事情但对 EnumDisplayDevices 的第二次调用似乎永远不会返回任何内容我只获取有关显卡的
Genie 中嵌套泛型类型的语法是什么？

我想声明一个哈希表string因为它是关键并且array of int因为它的价值 indent 4 init var h new HashTable of string array of int str hash str equal h
CSS 样式表未加载

这是最愚蠢的问题但我不知道为什么我找不到问题下面是代码但 css 文件未加载 section a href class btn btn primary Hello a section
Tensorflow，如何访问 RNN 的所有中间状态，而不仅仅是最后一个状态

我的理解是tf nn dynamic rnn返回 RNN 单元例如 LSTM 在每个时间步的输出以及最终状态如何访问所有时间步骤中的细胞状态而不仅仅是最后一个时间步骤例如我希望能够对所有隐藏状态进行平均然后在后续层中使用它以下
使用 DataFrame 按组计算 Python Spark 累积和

如何专门使用以下方法计算每组的累积总和DataFrame abstraction 并在PySpark 示例数据集如下 df sqlContext createDataFrame 1 2 a 3 2 a 1 3 b 2 2 a 2 3 b t

使用 DataFrame 按组计算 Python Spark 累积和

使用 DataFrame 按组计算 Python Spark 累积和 的相关文章

随机推荐

热门标签

使用 DataFrame 按组计算 Python Spark 累积和的相关文章