获取 Spark 中组的最后一个值

2024-05-03

我有一个 SparkR DataFrame,如下所示:

#Create R data.frame
custId <- c(rep(1001, 5), rep(1002, 3), 1003)
date <- c('2013-08-01','2014-01-01','2014-02-01','2014-03-01','2014-04-01','2014-02-01','2014-03-01','2014-04-01','2014-04-01')
desc <- c('New','New','Good','New', 'Bad','New','Good','Good','New')
newcust <- c(1,1,0,1,0,1,0,0,1)
df <- data.frame(custId, date, desc, newcust)

#Create SparkR DataFrame    
df <- createDataFrame(df)
display(df)
      custId|    date   | desc | newcust
      --------------------------------------
       1001 | 2013-08-01| New  |   1
       1001 | 2014-01-01| New  |   1
       1001 | 2014-02-01| Good |   0
       1001 | 2014-03-01| New  |   1
       1001 | 2014-04-01| Bad  |   0
       1002 | 2014-02-01| New  |   1
       1002 | 2014-03-01| Good |   0
       1002 | 2014-04-01| Good |   0 
       1003 | 2014-04-01| New  |   1

newcust每次有新客户时都表示有新客户custId出现,或者如果相同custId's desc恢复为“新”。我想要得到的是最后一个desc每个分组的值newcust,同时保持第一个date对于每个分组。下面是我想要获取的DataFrame。我怎样才能在 Spark 中做到这一点? PySpark 或 SparkR 代码都可以工作。

#What I want 
custId|    date   | newcust | finaldesc
----------------------------------------------
 1001 | 2013-08-01|   1     | New
 1001 | 2014-01-01|   1     | Good
 1001 | 2014-03-01|   1     | Bad
 1002 | 2014-02-01|   1     | Good
 1003 | 2014-04-01|   1     | New

我不知道sparkR,所以我会在pyspark中回答。 您可以使用窗口函数来实现这一点。

首先,我们来定义“分组”newcust“,你想要每一行newcust等于 1 作为新组的开始,计算累积和即可解决问题:

from pyspark.sql import Window
import pyspark.sql.functions as psf

w1 = Window.partitionBy("custId").orderBy("date")
df1 = df.withColumn("subgroup", psf.sum("newcust").over(w1))

+------+----------+----+-------+--------+
|custId|      date|desc|newcust|subgroup|
+------+----------+----+-------+--------+
|  1001|2013-08-01| New|      1|       1|
|  1001|2014-01-01| New|      1|       2|
|  1001|2014-02-01|Good|      0|       2|
|  1001|2014-03-01| New|      1|       3|
|  1001|2014-04-01| Bad|      0|       3|
|  1002|2014-02-01| New|      1|       1|
|  1002|2014-03-01|Good|      0|       1|
|  1002|2014-04-01|Good|      0|       1|
|  1003|2014-04-01| New|      1|       1|
+------+----------+----+-------+--------+

对于每个subgroup,我们想保留第一个日期:

w2 = Window.partitionBy("custId", "subgroup")
df2 = df1.withColumn("first_date", psf.min("date").over(w2))

+------+----------+----+-------+--------+----------+
|custId|      date|desc|newcust|subgroup|first_date|
+------+----------+----+-------+--------+----------+
|  1001|2013-08-01| New|      1|       1|2013-08-01|
|  1001|2014-01-01| New|      1|       2|2014-01-01|
|  1001|2014-02-01|Good|      0|       2|2014-01-01|
|  1001|2014-03-01| New|      1|       3|2014-03-01|
|  1001|2014-04-01| Bad|      0|       3|2014-03-01|
|  1002|2014-02-01| New|      1|       1|2014-02-01|
|  1002|2014-03-01|Good|      0|       1|2014-02-01|
|  1002|2014-04-01|Good|      0|       1|2014-02-01|
|  1003|2014-04-01| New|      1|       1|2014-04-01|
+------+----------+----+-------+--------+----------+

最后,我们要保留每个的最后一行(按日期排序)subgroup:

w3 = Window.partitionBy("custId", "subgroup").orderBy(psf.desc("date"))
df3 = df2.withColumn(
    "rn", 
    psf.row_number().over(w3)
).filter("rn = 1").select(
    "custId", 
    psf.col("first_date").alias("date"), 
    "desc"
)

+------+----------+----+
|custId|      date|desc|
+------+----------+----+
|  1001|2013-08-01| New|
|  1001|2014-01-01|Good|
|  1001|2014-03-01| Bad|
|  1002|2014-02-01|Good|
|  1003|2014-04-01| New|
+------+----------+----+
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

获取 Spark 中组的最后一个值 的相关文章

随机推荐

  • Chrome 扩展程序启用 Flash 插件

    我正在开发一款在 Adob e Flash 中运行的游戏 从 Chrome 69 开始 每次用户重新启动浏览器时 使用 Flash 的网站都需要明确的权限才能运行它 我们预计很多玩家会被放弃 因为他们每次重新启动浏览器时都需要经历点击播放流
  • 在 Visual Studio 2010 中删除 .pdb 文件

    当我使用 Visual Studio 2010 编译 sln 文件时 会生成 pdb 文件 如何禁用 pdb 文件的创建 项目属性 构建 高级 中有一个选项 将 调试信息 更改为 无 但是 只有在确定不需要它们时才应该这样做 最好保留 PD
  • Swift 尝试呈现 UIAlertController,其视图不在窗口层次结构中(在 TWTRShareEmailViewController 之后呈现)

    我在应用程序的注册过程中使用 Twitter 登录 我正在询问用户的电子邮件 一旦我得到它 我想展示一个 UIAlertController 这是我的代码 func askForTWMail if Twitter sharedInstanc
  • Java:提取具有多个子目录的zip文件[重复]

    这个问题在这里已经有答案了 我有一个 zip Meow zip 它有多个文件和文件夹 如下所示 Meow zip 文件 txt 程序 exe Folder 资源 xml AnotherFolder OtherStuff 更多资源 xml 我
  • 参数数量未知的 IMP

    是否可以创建一个参数数量与正在解析的实例方法的选择器相匹配的 IMP 我可以使用 if 语句和有限数量的参数 例如0到10之间 但是是否可以使用例如 IMP implementationWithBlock 和 va args 您无法在 C
  • 如何使用 System.IO.Pipelines.PipeReader 读取 ASP.NET 应用程序中的所有 POST 正文字节?

    我正在尝试使用 Net 6 将我的 ASP NET 应用程序从 Stream 切换到 PipeReader按照微软的推荐 https youtu be 1koWtKkKb o 这是我的自定义方法 private static async T
  • asyncio 多个并发服务器

    我正在尝试使用 Python 的 asyncio 一起运行多个服务器 并在它们之间传递数据 对于我的具体情况 我需要一个带有 websocket 的 Web 服务器 与外部设备的 UDP 连接以及数据库和其他交互 我可以找到几乎所有这些单独
  • 隐式运算符

    我刚刚看到它在最近的答案之一中使用 public static implicit operator bool Savepoint sp return sp null 为什么我们需要言语implicit这里 这是什么意思 隐式意味着转换不需要
  • 如何在ActiveAdmin中过滤IS NULL?

    我有一个带有名为 map id 的整数列的表 我想添加一个 activeadmin 过滤器来过滤此列是否为 NULL 或 IS NOT NULL 这如何实施 我尝试了以下过滤器 filter map id label gt Assigned
  • 避免在 django allauth 的自定义用户模型中创建用户名字段

    我正在使用带有 allauth 的自定义用户模型 并且需要省略用户名字段 我已经看过文档和一大堆关于使用的 stackoverflow 答案ACCOUNT USER MODEL USERNAME FIELD None但所有这些仍然导致我的数
  • null != Something 和 Something != null 之间的区别

    之间有区别吗null something and something null在爪哇 如果有区别 那么我应该使用哪一个 为什么 之间没有区别null something and something null 你一定在想person getN
  • Javassist 增强部署失败

    我遇到了底部堆栈跟踪中指定的错误this https stackoverflow com questions 26220232 hibernate lazy loading proxy gorm static apis instanceof
  • JHipster - 日志文件

    我正在运行一个 JHipster 应用程序 我想知道日志文件在哪里 它们是在哪里生成的 这是一个新手问题 但找不到任何东西 我使用默认配置的 Dev 配置文件 没有更改有关 application dev yml 的任何内容 Thanks
  • 无法使用 XCode 创建快照

    我无法在 XCode 中拍摄我的特定项目的更多快照 如果我尝试创建快照 它会在状态栏中显示 正在创建快照 并永远持续下去 然后我强制退出 Xcode 重新启动并尝试再次创建快照 这次它立即给出错误消息 手动删除文件 锁定 因此 我然后使用终
  • jquery/javascript setInterval

    目前我正在开发一个用户通知提醒消息功能 我设法使用setInterval控制我的 Ajax 调用 检查是否有用户的通知消息 但我的问题是我只想要通知消息 在页面上出现一次 现在它在屏幕上显示多个通知警报消息 我知道你可以使用setTimeo
  • Android Canvas.DrawBitmap 没有模糊/抗锯齿?

    我正在尝试使用精灵 或非常像素化的角色 背景等 制作一个Android游戏 我把它们画在画布上 就像这样 matrix preScale xrat yrat canvas drawBitmap img matrix null 其中 img
  • 如何获取android中listview特定项目的id?

    我在用Listview并设置多个项目 每个项目都有喜欢 分享和评论选项 实际上我已经获取了 Item Id 并且还setText of TextView 成功了 但无法在特定项目的 Like 按钮单击事件上获取项目 ID 如何获取每个项目的
  • Android 中如何调用 getContentResolver() ?

    我想知道当时的背景getContentResolver 叫做 我有一个这样的场景 我有一个调用方法的活动 AmyFunc B 类 这不是一项活动 所以 在B类中我必须使用getContentResolver 我直接打电话getContent
  • 使用指令将类添加到宿主元素[重复]

    这个问题在这里已经有答案了 我目前正在学习 Angular 2 我了解如何使用 AngularRenderer设置一个ElementStyle 但现在我想使用Renderer方法 setElementClass renderElement
  • 获取 Spark 中组的最后一个值

    我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20