Spark - 带有递归的窗口？ - 有条件地跨行传播值

2023-12-08

我有以下数据框显示购买收入。

+-------+--------+-------+
|user_id|visit_id|revenue|
+-------+--------+-------+
|      1|       1|      0|
|      1|       2|      0|
|      1|       3|      0|
|      1|       4|    100|
|      1|       5|      0|
|      1|       6|      0|
|      1|       7|    200|
|      1|       8|      0|
|      1|       9|     10|
+-------+--------+-------+

最终我想要新专栏purch_revenue显示每行购买产生的收入。作为解决方法，我还尝试引入购买标识符purch_id每次购买时都会增加。所以列出来只是作为参考。

+-------+--------+-------+-------------+--------+
|user_id|visit_id|revenue|purch_revenue|purch_id|
+-------+--------+-------+-------------+--------+
|      1|       1|      0|          100|       1|
|      1|       2|      0|          100|       1|
|      1|       3|      0|          100|       1|
|      1|       4|    100|          100|       1|
|      1|       5|      0|          100|       2|
|      1|       6|      0|          100|       2|
|      1|       7|    200|          100|       2|
|      1|       8|      0|          100|       3|
|      1|       9|     10|          100|       3|
+-------+--------+-------+-------------+--------+

我尝试过使用lag/lead像这样的函数：

user_timeline = Window.partitionBy("user_id").orderBy("visit_id")
find_rev = fn.when(fn.col("revenue") > 0,fn.col("revenue"))\ 
  .otherwise(fn.lead(fn.col("revenue"), 1).over(user_timeline))
df.withColumn("purch_revenue", find_rev)

这会重复收入列，如果revenue > 0并且还将其拉起一排。显然，我可以将其链接到有限的 N，但这不是解决方案。

有没有办法递归地应用这个直到revenue > 0?
或者，有没有办法根据条件增加值？我试图找出一种方法来做到这一点，但很难找到。

窗口函数不支持递归，但这里不需要。这种类型的分段可以通过累积和轻松处理：

from pyspark.sql.functions import col, sum, when, lag
from pyspark.sql.window import Window

w = Window.partitionBy("user_id").orderBy("visit_id")
purch_id = sum(lag(when(
    col("revenue") > 0, 1).otherwise(0), 
    1, 0
).over(w)).over(w) + 1

df.withColumn("purch_id", purch_id).show()

+-------+--------+-------+--------+
|user_id|visit_id|revenue|purch_id|
+-------+--------+-------+--------+
|      1|       1|      0|       1|
|      1|       2|      0|       1|
|      1|       3|      0|       1|
|      1|       4|    100|       1|
|      1|       5|      0|       2|
|      1|       6|      0|       2|
|      1|       7|    200|       2|
|      1|       8|      0|       3|
|      1|       9|     10|       3|
+-------+--------+-------+--------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

windowfunctions

Spark - 带有递归的窗口？ - 有条件地跨行传播值的相关文章

从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
如何在 AWS Glue 中指定联接类型？

我正在使用 AWS Glue 连接两个表默认情况下它执行INNER JOIN 我想做一个LEFT OUTER JOIN 我参考了 AWS Glue 文档但无法将联接类型传递给Join apply 方法有没有办法在 AWS Glue
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
Spark Python：标准缩放器错误“不支持... SparseVector”

我又撞到了堵墙我是一个新手所以我不得不再次依赖你强大的知识我从一个数据集开始如下所示 user account id user lifetime user no outgoing activity in days user acco
如何从DataFrame中获取最后一行？

我有一个DataFrame 该DataFrame有两列 value 和 timestamp timestmp 是有序的我想获取DataFrame的最后一行我该怎么办这是我的输入 value timestamp 1 1 4 2 3 3
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
如何从 Spark 数据框中删除重复项，同时保留最新数据？

我正在使用 Spark 从 Amazon S3 加载 json 文件我想根据保留最新数据帧的两列删除重复项我有时间戳列最好的方法是什么请注意重复项可能分布在多个分区中我可以在不打乱的情况下删除保留最后一条记录的重复项吗我正在处
如何在 PySpark 中使用 foreach 或 foreachBatch 写入数据库？

我想使用 Python PySpark 从 Kafka 源到 MariaDB 进行 Spark 结构化流处理 Spark 2 4 x 我想使用流式 Spark 数据帧而不是静态数据帧或 Pandas 数据帧看来必须要用foreach o
如何避免连续“重置偏移量”和“寻找最新偏移量”？

我正在尝试遵循本指南 https spark apache org docs latest structed streaming kafka integration html https spark apache org docs late
Spark JSON 文本字段到 RDD

我有一个 cassandra 表其中有一个名为 snapshot 的文本类型字段其中包含 JSON 对象 identifier timestamp snapshot 我了解到为了能够使用 Spark 对该字段进行转换我需要将该 RD
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
如何处理 Spark 数据框中外连接的数据倾斜

我有两个数据框正在对 5 列执行外连接下面是我的数据集的示例 uniqueFundamentalSet PeriodId SourceId StatementTypeCode StatementCurrencyId FinancialS
将 Spark 数据帧写入 csv 文件时出现“调用 o58.csv 时发生错误”错误

使用后df write csv尝试将我的 Spark 数据帧导出到 csv 文件中我收到以下错误消息 AppData Local Programs Python Python39 lib site packages py4j protoc

随机推荐

我只需要重写 Toast 类的 show()

我只需要覆盖show 方法为Toast班级我创建了一个扩展的类Toast类但随后我创建了一条 toast 消息但出现异常setView View view 还没有被调用但我不想创建自定义View方法但使用默认方法那么如何才能覆
SecurityAttribute.Unrestricted 问题

我对这个属性感到困惑正如这里提到的 http msdn microsoft com en us library system security permissions securityattribute unrestricted aspx
使用自定义 CSS 将 HTML 文件加载到 WebView

我的 Android 应用程序上有一个 WebView 可以加载 WebView loadUrl 手机内部存储中的不同本地 HTML 文件我想为它们添加一些自定义 css 样式现在我可以让我的应用程序编辑每个 HTML 文件并添加 C
scipy curve_fit 不喜欢数学模块

在尝试创建一个示例时scipy optimize curve fit我发现scipy似乎与Python的不兼容math模块而函数f1工作正常 f2抛出错误消息 from scipy optimize import curve fit fr
添加到词典的不同方式

有什么区别Dictionary add key value and Dictionary key value 我注意到最后一个版本没有抛出ArgumentException插入重复密钥时但有什么理由更喜欢第一个版本 Edit 请问谁有这方
警告：无法访问代码，使用 Reactjs

我正在使用 ReactJs 我有两个组件 PrescriptionIndex 和 PrescriptionNew 将一个组件与另一个组件集成这是我的第一个组件 PrescriptionNew import React Component
为什么我的 Java 中的 PriorityBlockingQueue 无法正确排序？

由于某种原因当我添加到优先级队列时它不会完全按字母顺序对我的字符串进行排序我不明白为什么这是添加到 PriorityBlockingQueue 的代码 String toAdd String format s s directory
在 JTextField 上设置光标

我正在用 Java 制作一个使用 JTextField 的小型应用程序现在我希望一旦运行应用程序光标就会自动放置在该位置以便用户不必单击它然后编写文本我已经尝试了在网上找到的几乎所有内容 setCaretPosition 0 g
如何使用 cmake 将 git SHA1 作为定义传递给编译器？

在 Makefile 中这可以通过以下方式完成 g DGIT SHA1 git log 1 head n 1 这非常有用因为二进制文件知道确切的提交 SHA1 因此可以在发生段错误时转储它我怎样才能用 CMake 达到同样的效果我制
在 Python 中保存图像的最佳格式是什么，为什么 pydot 会保存无效图像？

我在用pydot在我的机器上保存图像文件然后使用图像模块打开该文件但是我使用时遇到错误Windows Photo viewer 该图像无法打开因为它已被删除或位于不可用的位置这是不正确的因为图像被保存到我的桌面上有时图片确实
redis 好像服务器已经关闭了连接

我想使用redis sub pub 但是当我订阅一个频道时 2分钟后控制台输出异常服务器似乎已关闭连接 redis版本 redis 3 0 3 jedis版本 2 3 0 操作系统 OS X Yosemite 10 10 5 订阅 cl
连接到 Firebird 3 的 C# 程序中的“连接被远程接口拒绝”

从 Firebird 2 5 迁移到 3 0 后当我尝试使用 C 程序测试数据库连接时会出现此错误连接被远程接口拒绝这是用于测试连接的代码当我尝试连接到 firebird 2 5 数据库时我使用此代码 txtPassword Pr
使用 PHP 访问 Windows 共享

我需要使用 PHP 访问 Windows 共享上的 Excel 文件但似乎遇到了身份验证问题我在用着PHP ExcelReader打开并读取文件在我的本地计算机上工作正常但我放置它的服务器无权访问此共享因此它告诉我该路径不可读我
如何使用 OleDB 避免 Excel 文件中的空行？

我开始使用OleDB 我正在尝试从 Excel 文件 C 中中提取大量随机数据这是我的查询 SELECT FROM NAMED RANGE 但我有很多空行我循环删除它们但我不太喜欢它是否可以仅选择至少填充了一个单元格的行此致 A
连接 MongoDB 中的两个集合

我是 mongoDB 的初学者我有两本收藏书和作者姓名和作品分别是公共栏使用内部联接我必须发出 Book 和 Author 中的一些列就像这个 sql 查询 select book name book editions book
用于单击网页按钮的 Python 脚本

我有一个 python 脚本它使用 requests 库将数据发送到 django 应用程序然后用户切换到网页并单击一个按钮来获取编辑表单以添加一些附加信息我希望请求收到状态代码 200 后立即切换到网页并自动单击按钮而不是用户每次
如何从 json 结果中快速删除可选文本

我正在使用 newsApi 从中获取新闻列表我根据新闻的属性创建了模型所有属性在模型中都是可选的当我解析它时它会打印到控制台获取结果但所有字段都有带有可选文本的数据我创建了三个基于新闻 api 字段的结构它们就像 struct
检索数据库中所有表的列表

我在通常的数据库文件夹下有这个数据库文件里面有一堆表请注意我不想在命令行下检索我知道我可以使用 tables 命令我想使用代码检索其中所有表的列表以便我可以对每个表执行一些特定的算法另外我在Android上没有发现任何与此问
服务器发送的事件不适用于球衣 SSE

我正在尝试使用来自 Jersey 的 JavaScript SSE 我的资源中有以下代码我在 Java7 和 Tomcat 7 上托管我没有收到任何错误但我在页面上也看不到数据 I call broadcast发布数据它确实显示消息
Spark - 带有递归的窗口？ - 有条件地跨行传播值

我有以下数据框显示购买收入 user id visit id revenue 1 1 0 1 2 0 1 3 0 1 4 100 1 5 0 1 6 0 1 7 200 1 8 0 1 9 10

Spark - 带有递归的窗口？ - 有条件地跨行传播值

Spark - 带有递归的窗口？ - 有条件地跨行传播值 的相关文章

随机推荐

热门标签

Spark - 带有递归的窗口？ - 有条件地跨行传播值的相关文章