获取 Spark 中组的最后一个值

2024-05-03

我有一个 SparkR DataFrame，如下所示：

#Create R data.frame
custId <- c(rep(1001, 5), rep(1002, 3), 1003)
date <- c('2013-08-01','2014-01-01','2014-02-01','2014-03-01','2014-04-01','2014-02-01','2014-03-01','2014-04-01','2014-04-01')
desc <- c('New','New','Good','New', 'Bad','New','Good','Good','New')
newcust <- c(1,1,0,1,0,1,0,0,1)
df <- data.frame(custId, date, desc, newcust)

#Create SparkR DataFrame    
df <- createDataFrame(df)
display(df)
      custId|    date   | desc | newcust
      --------------------------------------
       1001 | 2013-08-01| New  |   1
       1001 | 2014-01-01| New  |   1
       1001 | 2014-02-01| Good |   0
       1001 | 2014-03-01| New  |   1
       1001 | 2014-04-01| Bad  |   0
       1002 | 2014-02-01| New  |   1
       1002 | 2014-03-01| Good |   0
       1002 | 2014-04-01| Good |   0 
       1003 | 2014-04-01| New  |   1

newcust每次有新客户时都表示有新客户custId出现，或者如果相同custId's desc恢复为“新”。我想要得到的是最后一个desc每个分组的值newcust，同时保持第一个date对于每个分组。下面是我想要获取的DataFrame。我怎样才能在 Spark 中做到这一点？ PySpark 或 SparkR 代码都可以工作。

#What I want 
custId|    date   | newcust | finaldesc
----------------------------------------------
 1001 | 2013-08-01|   1     | New
 1001 | 2014-01-01|   1     | Good
 1001 | 2014-03-01|   1     | Bad
 1002 | 2014-02-01|   1     | Good
 1003 | 2014-04-01|   1     | New

我不知道sparkR，所以我会在pyspark中回答。您可以使用窗口函数来实现这一点。

首先，我们来定义“分组”newcust“，你想要每一行newcust等于 1 作为新组的开始，计算累积和即可解决问题：

from pyspark.sql import Window
import pyspark.sql.functions as psf

w1 = Window.partitionBy("custId").orderBy("date")
df1 = df.withColumn("subgroup", psf.sum("newcust").over(w1))

+------+----------+----+-------+--------+
|custId|      date|desc|newcust|subgroup|
+------+----------+----+-------+--------+
|  1001|2013-08-01| New|      1|       1|
|  1001|2014-01-01| New|      1|       2|
|  1001|2014-02-01|Good|      0|       2|
|  1001|2014-03-01| New|      1|       3|
|  1001|2014-04-01| Bad|      0|       3|
|  1002|2014-02-01| New|      1|       1|
|  1002|2014-03-01|Good|      0|       1|
|  1002|2014-04-01|Good|      0|       1|
|  1003|2014-04-01| New|      1|       1|
+------+----------+----+-------+--------+

对于每个subgroup，我们想保留第一个日期：

w2 = Window.partitionBy("custId", "subgroup")
df2 = df1.withColumn("first_date", psf.min("date").over(w2))

+------+----------+----+-------+--------+----------+
|custId|      date|desc|newcust|subgroup|first_date|
+------+----------+----+-------+--------+----------+
|  1001|2013-08-01| New|      1|       1|2013-08-01|
|  1001|2014-01-01| New|      1|       2|2014-01-01|
|  1001|2014-02-01|Good|      0|       2|2014-01-01|
|  1001|2014-03-01| New|      1|       3|2014-03-01|
|  1001|2014-04-01| Bad|      0|       3|2014-03-01|
|  1002|2014-02-01| New|      1|       1|2014-02-01|
|  1002|2014-03-01|Good|      0|       1|2014-02-01|
|  1002|2014-04-01|Good|      0|       1|2014-02-01|
|  1003|2014-04-01| New|      1|       1|2014-04-01|
+------+----------+----+-------+--------+----------+

最后，我们要保留每个的最后一行（按日期排序）subgroup:

w3 = Window.partitionBy("custId", "subgroup").orderBy(psf.desc("date"))
df3 = df2.withColumn(
    "rn", 
    psf.row_number().over(w3)
).filter("rn = 1").select(
    "custId", 
    psf.col("first_date").alias("date"), 
    "desc"
)

+------+----------+----+
|custId|      date|desc|
+------+----------+----+
|  1001|2013-08-01| New|
|  1001|2014-01-01|Good|
|  1001|2014-03-01| Bad|
|  1002|2014-02-01|Good|
|  1003|2014-04-01| New|
+------+----------+----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

sparkr

获取 Spark 中组的最后一个值的相关文章

如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l

随机推荐

Chrome 扩展程序启用 Flash 插件

我正在开发一款在 Adob e Flash 中运行的游戏从 Chrome 69 开始每次用户重新启动浏览器时使用 Flash 的网站都需要明确的权限才能运行它我们预计很多玩家会被放弃因为他们每次重新启动浏览器时都需要经历点击播放流
在 Visual Studio 2010 中删除 .pdb 文件

当我使用 Visual Studio 2010 编译 sln 文件时会生成 pdb 文件如何禁用 pdb 文件的创建项目属性构建高级中有一个选项将调试信息更改为无但是只有在确定不需要它们时才应该这样做最好保留 PD
Swift 尝试呈现 UIAlertController，其视图不在窗口层次结构中（在 TWTRShareEmailViewController 之后呈现）

我在应用程序的注册过程中使用 Twitter 登录我正在询问用户的电子邮件一旦我得到它我想展示一个 UIAlertController 这是我的代码 func askForTWMail if Twitter sharedInstanc
Java：提取具有多个子目录的zip文件[重复]

这个问题在这里已经有答案了我有一个 zip Meow zip 它有多个文件和文件夹如下所示 Meow zip 文件 txt 程序 exe Folder 资源 xml AnotherFolder OtherStuff 更多资源 xml 我
参数数量未知的 IMP

是否可以创建一个参数数量与正在解析的实例方法的选择器相匹配的 IMP 我可以使用 if 语句和有限数量的参数例如0到10之间但是是否可以使用例如 IMP implementationWithBlock 和 va args 您无法在 C
如何使用 System.IO.Pipelines.PipeReader 读取 ASP.NET 应用程序中的所有 POST 正文字节？

我正在尝试使用 Net 6 将我的 ASP NET 应用程序从 Stream 切换到 PipeReader按照微软的推荐 https youtu be 1koWtKkKb o 这是我的自定义方法 private static async T
asyncio 多个并发服务器

我正在尝试使用 Python 的 asyncio 一起运行多个服务器并在它们之间传递数据对于我的具体情况我需要一个带有 websocket 的 Web 服务器与外部设备的 UDP 连接以及数据库和其他交互我可以找到几乎所有这些单独
隐式运算符

我刚刚看到它在最近的答案之一中使用 public static implicit operator bool Savepoint sp return sp null 为什么我们需要言语implicit这里这是什么意思隐式意味着转换不需要
如何在ActiveAdmin中过滤IS NULL？

我有一个带有名为 map id 的整数列的表我想添加一个 activeadmin 过滤器来过滤此列是否为 NULL 或 IS NOT NULL 这如何实施我尝试了以下过滤器 filter map id label gt Assigned
避免在 django allauth 的自定义用户模型中创建用户名字段

我正在使用带有 allauth 的自定义用户模型并且需要省略用户名字段我已经看过文档和一大堆关于使用的 stackoverflow 答案ACCOUNT USER MODEL USERNAME FIELD None但所有这些仍然导致我的数
null != Something 和 Something != null 之间的区别

之间有区别吗null something and something null在爪哇如果有区别那么我应该使用哪一个为什么之间没有区别null something and something null 你一定在想person getN
Javassist 增强部署失败

我遇到了底部堆栈跟踪中指定的错误this https stackoverflow com questions 26220232 hibernate lazy loading proxy gorm static apis instanceof
JHipster - 日志文件

我正在运行一个 JHipster 应用程序我想知道日志文件在哪里它们是在哪里生成的这是一个新手问题但找不到任何东西我使用默认配置的 Dev 配置文件没有更改有关 application dev yml 的任何内容 Thanks
无法使用 XCode 创建快照

我无法在 XCode 中拍摄我的特定项目的更多快照如果我尝试创建快照它会在状态栏中显示正在创建快照并永远持续下去然后我强制退出 Xcode 重新启动并尝试再次创建快照这次它立即给出错误消息手动删除文件锁定因此我然后使用终
jquery/javascript setInterval

目前我正在开发一个用户通知提醒消息功能我设法使用setInterval控制我的 Ajax 调用检查是否有用户的通知消息但我的问题是我只想要通知消息在页面上出现一次现在它在屏幕上显示多个通知警报消息我知道你可以使用setTimeo
Android Canvas.DrawBitmap 没有模糊/抗锯齿？

我正在尝试使用精灵或非常像素化的角色背景等制作一个Android游戏我把它们画在画布上就像这样 matrix preScale xrat yrat canvas drawBitmap img matrix null 其中 img
如何获取android中listview特定项目的id？

我在用Listview并设置多个项目每个项目都有喜欢分享和评论选项实际上我已经获取了 Item Id 并且还setText of TextView 成功了但无法在特定项目的 Like 按钮单击事件上获取项目 ID 如何获取每个项目的
Android 中如何调用 getContentResolver() ？

我想知道当时的背景getContentResolver 叫做我有一个这样的场景我有一个调用方法的活动 AmyFunc B 类这不是一项活动所以在B类中我必须使用getContentResolver 我直接打电话getContent
使用指令将类添加到宿主元素[重复]

这个问题在这里已经有答案了我目前正在学习 Angular 2 我了解如何使用 AngularRenderer设置一个ElementStyle 但现在我想使用Renderer方法 setElementClass renderElement
获取 Spark 中组的最后一个值

我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20

获取 Spark 中组的最后一个值

获取 Spark 中组的最后一个值 的相关文章

随机推荐

热门标签

获取 Spark 中组的最后一个值的相关文章