具有当前行条件的 Spark 窗口函数

2024-02-19

我正在尝试计算给定的order_id过去 365 天内有多少订单已付款。这不是问题：我使用窗函数 https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html.

对我来说棘手的是：我不想在这个时间窗口内计算订单，因为payment_date是在之后order_date当前的order_id.

目前，我有这样的事情：

val window: WindowSpec = Window
  .partitionBy("customer_id")
  .orderBy("order_date")
  .rangeBetween(-365*days, -1)

and

df.withColumn("paid_order_count", count("*") over window)

这将统计客户当前订单之前过去 365 天内的所有订单。

现在我怎样才能为需要的计数添加一个条件order_date考虑当前订单？

Example:

+---------+-----------+-------------+------------+
|order_id |order_date |payment_date |customer_id |
+---------+-----------+-------------+------------+
|1        |2017-01-01 |2017-01-10   |A           |
|2        |2017-02-01 |2017-02-10   |A           |
|3        |2017-02-02 |2017-02-20   |A           |

结果表应如下所示：

+---------+-----------+-------------+------------+-----------------+
|order_id |order_date |payment_date |customer_id |paid_order_count |
+---------+-----------+-------------+------------+-----------------+
|1        |2017-01-01 |2017-01-10   |A           |0                |
|2        |2017-02-01 |2017-02-10   |A           |1                |
|3        |2017-02-02 |2017-02-20   |A           |1                |

For order_id = 3 the paid_order_count不应该是2 but 1 as order_id = 2是在之后支付的order_id = 3被放置。

我希望我能很好地解释我的问题并期待您的想法！

很好的问题！！！一些评论，使用范围之间创建一个基于其中的行数而不是值的固定框架，因此在两种情况下会出现问题：

客户并非每天都有订单，因此 365 行窗口可能包含 order_date 早于一年前的行
如果客户每天有多个订单，则会扰乱一年的保修范围
1 和 2 的组合

Also 范围之间不适用于日期和时间戳数据类型。

为了解决这个问题，可以使用带有列表和 UDF 的窗口函数：

import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions.Window

  val df = spark.sparkContext.parallelize(Seq(
    (1, "2017-01-01", "2017-01-10", "A")
    , (2, "2017-02-01", "2017-02-10", "A")
    , (3, "2017-02-02", "2017-02-20", "A")
  )
  ).toDF("order_id", "order_date", "payment_date", "customer_id")
    .withColumn("order_date_ts", to_timestamp($"order_date", "yyyy-MM-dd").cast("long"))
    .withColumn("payment_date_ts", to_timestamp($"payment_date", "yyyy-MM-dd").cast("long"))

//      df.printSchema()
//      df.show(false)

  val window = Window.partitionBy("customer_id").orderBy("order_date_ts").rangeBetween(Window.unboundedPreceding, -1)

  val count_filtered_dates = udf( (days: Int, top: Long, array: Seq[Long]) => {
      val bottom = top - (days * 60 * 60 * 24).toLong // in spark timestamps are in secconds, calculating the date days ago
      array.count(v => v >= bottom && v < top)
    }
  )

  val res = df.withColumn("paid_orders", collect_list("payment_date_ts") over window)
      .withColumn("paid_order_count", count_filtered_dates(lit(365), $"order_date_ts", $"paid_orders"))

  res.show(false)

Output:

+--------+----------+------------+-----------+-------------+---------------+------------------------+----------------+
|order_id|order_date|payment_date|customer_id|order_date_ts|payment_date_ts|paid_orders             |paid_order_count|
+--------+----------+------------+-----------+-------------+---------------+------------------------+----------------+
|1       |2017-01-01|2017-01-10  |A          |1483228800   |1484006400     |[]                      |0               |
|2       |2017-02-01|2017-02-10  |A          |1485907200   |1486684800     |[1484006400]            |1               |
|3       |2017-02-02|2017-02-20  |A          |1485993600   |1487548800     |[1484006400, 1486684800]|1               |
+--------+----------+------------+-----------+-------------+---------------+------------------------+----------------+

将日期转换为 Spark 时间戳（以秒为单位）可以提高列表的内存效率。

这是最容易实现的代码，但不是最佳的，因为列表会占用一些内存，自定义 UDAF 是最好的，但需要更多编码，可能稍后会做。如果每个客户有数千个订单，这仍然有效。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

具有当前行条件的 Spark 窗口函数的相关文章

如何在 Lift 框架中添加新页面

如何在 lift 中的 webapp 目录中添加一个可供用户访问的新页面目前只能通过index html访问http localhost 8080 com http localhost 8080 or http localhost 808
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
Scala 的“神奇”函数列表

在哪里可以找到 Scala 的神奇函数列表例如apply unapply update etc 魔法函数是指编译器的某些语法糖使用的函数例如 o update x y lt gt o x y 我用谷歌搜索了一些组合scala mag
在没有匹配器的情况下如何跳过specs2中的测试？

我正在尝试使用 scala 中的 specs2 测试一些与数据库相关的内容目标是测试 db running 然后执行测试我发现如果数据库关闭我可以使用 Matcher 类中的 orSkip 问题是我正在获取一个匹配条件的输出作为
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
你能在 scala 中使用 varargs 柯里化一个函数吗？

我正在考虑如何用可变参数柯里化一种方法然后我意识到我什至不知道如何去做理想情况下它应该让您可以随时开始使用它然后以可迭代结束 def concat strs String strs mkString val curriedConca
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
Scala 为了在 JVM 上运行做出了哪些妥协？

Scala 是一种很棒的语言但我想知道如果它有自己的运行时如何改进 IE 由于 JVM 的选择做出了哪些设计选择我所知道的两个最重要的妥协是类型擦除 http java sun com docs books tutorial ja
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
如何记录来自 Akka (Java) 的所有传入消息

在 Scala 中您可以使用 LoggingReceive 包装接收函数如何通过 Java API 实现相同的目标 def receive LoggingReceive case x do something Scala API 有Lo
Slick：将操作与 DBIOAction 的 Seq 组合起来

我有工作以下代码 val actions for lt slickUsers insertOrUpdate dbUser loginInfo lt loginInfoAction lt slickUserLoginInfos DBUse
函数式 Scala 中的选择排序

我正在学习 Scala 编程并编写了选择排序算法的快速实现然而由于我对函数式编程还不太了解所以在转换为更 Scala 风格时遇到了困难对于 Scala 程序员来说如何使用 Lists 和 vals 来做到这一点而不是回到我的命
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
Scala 程序中三元运算符的用法[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我有一个需要应用过滤器的对象数组 val filteredList list filter l gt pid true l Pro
Java时间转正常格式

我有 Java 时间1380822000000 我想转换为我可以阅读的内容 import java util Date object Ws1 val a new Date 1380822000000 toString 导致异常 warnin
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
如何使用 zio-test 测试异常情况

我有以下功能我想测试 def people id Int RIO R People 如果有 People 则此函数返回 Peopleid 分别如果没有则失败例如 IO fail ServiceException s No People
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
SBT Scaladoc 配置

我正在尝试在 SBT 中配置 Scaladoc 特别是标题输出目录和类路径我通过将以下内容添加到 build sbt 来定义标题 scalacOptions in Compile doc Opts doc title Scala Too
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l

随机推荐

使用“设备过滤器”解决方案时如何处理 Android 上的 USB 权限对话框事件？

当我将已知 USB 设备连接到 Android 手机时出现的自动权限对话框中用户按下确定或取消时我试图处理该事件我正在使用 android usb host 库可以在 Android 手机和设备之间发送和接收此外我使用
Xcode6 中哪里可以找到“延迟加载符号”选项？

Xcode6 中哪里可以找到延迟加载符号选项我在偏好中找不到它延迟加载符号选项在 Xcode 6 中不可用您可以使用下面的断点调试 gt 调试工作流程 gt 取消选择始终显示反汇编
如何将 mathml 转换为图像？

我需要将 mathml 转换为图像我试过mathml 图像服务 http mathml to image service readthedocs org en latest getting started html using the a
hashref 查找中的语法错误，看不出原因

perl E say for map s qw ae oe aa gt 1 ger qw r d gul bl perl E say for map s qw ae oe aa gt 1 ger qw r d gul bl 上面的第一行给了
在 C# Com 包装器中使用本机 dll 和在 silverlight 中使用 dll

作为我的项目的一部分我需要在 Silverlight 中使用一些 Unamanged 代码 dll 如果我将这些非托管 dll 包装在 C dll 中我将能够从 silverlight 访问本机 dll 我使用 Visual Studi
如何在PhpStorm中默认打开文件后显示“gitblame”

如何在 PhpStorm 中默认打开文件后显示 gitblame 没有右键单击左侧装订线然后选择注释选项我想在打开文件后默认显示 gitblame 支持 git Blame 该命令被调用annotate在 PhpStorm 中右键单
Adafruit raspberry-pi neopixel 库抛出错误“ImportError：没有名为 _rpi_ws281x 的模块”

我在学习 Adafruit Neopixel 教程时遇到了这个问题 https learn adafruit com neopixels on raspberry pi python usage https learn adafruit c
如何更改 AOSP 中的应用程序无响应 (ANR) 超时 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案如何更改 AOSP 源代码中的应用程序无响应 ANR 超时默认超时为 5 秒但该设置在哪里以及如何更改它 ANR 超时在文件 Input
与普通 JUnit 相比，Powermock JUnit 测试需要更多时间来执行

我们使用 powermock 来模拟静态方法 PrepareForTest注释测试运行良好但问题是执行测试需要更多时间代码片段如下 PrepareForTest StaticClass1 class StaticClass2 clas
在 docker 中通过 cron 运行时`/bin/sh: 1: python: not found`

我想在 docker 容器中通过 cron 重复调用脚本但是当我从一次性执行切换到通过 cron 执行时官方 python 镜像似乎突然找不到 python Dockerfile FROM python 3 7 slim COPY ma
如何使用每个容器的白名单

我在 docker 模式下使用 traefik 它从 docker 容器中检索大部分配置 acme domains enabled frontend rules 目前所有容器都可以从 WWW 0 0 0 0 访问我想知道如何将对单个容器的
在Python中查找大图像中图像的所有位置

我扫描了一个面板由于限制而无法显示但我尝试模拟它这张图片模拟了我的扫描白色背景带有圆形黑色贴纸每个贴纸中间都有一个白色的小圆圈有些贴纸在扫描结果上略有不同但形状贴纸的类型始终相同现在我需要编写一个代码能够查看该图像
如何让 Worker() 跨域工作？

我一直在 BeSpin 上进行黑客攻击试图让它在我的 CDN 上工作并且通过转换为使用 JSONP 我克服了 theme less 的 XHR 跨域请求我遇到的下一个问题是新的 Worker js file 其中 js file 位于
为什么 Mac OS X 中的 Mach-O 库需要 install_name_tool 和 otool？

我正在使用最新版本的 Xcode 4 开发 Cocoa 应用程序我想将动态库链接到我的项目 dylibs 我在某处读到在我的项目中添加库是不够的因为我必须运行install name tool and otool使我的项目使用捆绑在我
从应用程序提示启用 GPS 后如何刷新并获取当前位置？

我目前正在开发一个 Android 应用程序如果 GPS 未打开它会提示用户启用 GPS 并且我已使用警报对话框来实现此目的在我从设置中启用 GPS 并按后退按钮返回到我的应用程序后 Toast 消息显示 0 00 0 00 尽管如果
在 Android 中使用基于 HTTPS 的 SOAP+XML 请求 Exchange Web Services 2007/2010

我使用 Microsoft 的以下 C 代码来请求 EWS 2010MSDN链接 http msdn microsoft com en us library cc526065 aspx它起作用了我需要同样的 Android 解决方案我尝
如何在asp.net中获取Sigma网格的记录数

我在用西格玛网格 http www sigmawidgets com products sigma grid2 在一个 ASP NET 项目中如果数据库返回 null 我想显示没有找到记录我尝试过一些事情例如 var grid Sig
为什么我不能分配给 Pandas DataFrame 的一部分？

我很困惑为什么以下pandas未成功将 A 列的最后两个值分配给 B 列的前两个条目 df pd DataFrame A 1 2 3 4 5 6 7 B 10 20 30 40 50 60 70 df df join pd DataFram
关键事件：ProcessCmdKey

我试图在一个小测试 Windows 窗体应用程序上获得一些键盘响应并且我有一个粗略的解决方案即覆盖 ProcessCmdKey 然而我遇到了一些问题并且发现了不一致的地方不同的事件有没有办法告诉在争论中ref Message
具有当前行条件的 Spark 窗口函数

我正在尝试计算给定的order id过去 365 天内有多少订单已付款这不是问题我使用窗函数 https databricks com blog 2015 07 15 introducing window functions in sp

具有当前行条件的 Spark 窗口函数

具有当前行条件的 Spark 窗口函数 的相关文章

随机推荐

热门标签

具有当前行条件的 Spark 窗口函数的相关文章