如何在 Apache Spark 中获取上一行的数据

2023-11-26

从 Spark Data 框架中查找每个城市上个月的销售情况

|City|     Month   |Sale|
+----+----------- +----- +
|  c1|    JAN-2017|  49 |
|  c1|    FEB-2017|  46 |
|  c1|    MAR-2017|  83 |
|  c2|    JAN-2017|  59 |
|  c2|    MAY-2017|  60 |
|  c2|    JUN-2017|  49 |
|  c2|    JUL-2017|  73 |
+----+-----+----+-------

所需的解决方案是

|City|     Month  |Sale   |previous_sale|
+----+-----+-------+-------------+--------
|  c1|    JAN-2017|  49|           NULL  |
|  c1|    FEB-2017|  46|           49    |
|  c1|    MAR-2017|  83|           46    |
|  c2|    JAN-2017|  59|           NULL  |
|  c2|    MAY-2017|  60|           59    |
|  c2|    JUN-2017|  49|           60    |
|  c2|    JUL-2017|  73|           49    |
+----+-----+----+-------------+-----------

请帮我

您可以使用lag获取前一个值的函数

如果您想按月份排序，则需要转换为正确的日期。为了"JAN-2017" to "01-01-2017"像这样的东西。

import spark.implicits._
val df = spark.sparkContext.parallelize(Seq(
  ("c1", "JAN-2017", 49),
("c1", "FEB-2017", 46),
("c1", "MAR-2017", 83),
("c2", "JAN-2017", 59),
("c2", "MAY-2017", 60),
("c2", "JUN-2017", 49),
("c2", "JUL-2017", 73)
)).toDF("city", "month", "sales")

val window = Window.partitionBy("city").orderBy("month")

df.withColumn("previous_sale", lag($"sales", 1, null).over(window)).show

Output:

+----+--------+-----+----+
|city|   month|sales| previous_sale|
+----+--------+-----+----+
|  c1|FEB-2017|   46|null|
|  c1|JAN-2017|   49|  46|
|  c1|MAR-2017|   83|  49|
|  c2|JAN-2017|   59|null|
|  c2|JUL-2017|   73|  59|
|  c2|JUN-2017|   49|  73|
|  c2|MAY-2017|   60|  49|
+----+--------+-----+----+

您可以使用此 UDF 创建一个默认日期，例如 01/月/年，即使年份不同，也会使用该日期对日期进行排序

val fullDate = udf((value :String )=>
{
  val months = List("JAN", "FEB", "MAR", "APR", "MAY", "JUN", "JUL", "AUG", "SEP", "OCT", "NOV", "DEC")
  val splited = value.split("-")
  new Date(splited(1).toInt, months.indexOf(splited(0)) + 1, 1)
})

df.withColumn("month", fullDate($"month")).show()

希望这可以帮助！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DataFrame

scala

apachespark

apachesparksql

如何在 Apache Spark 中获取上一行的数据的相关文章

如果条目出现次数少于 x 则删除数据框中的行

我有以下数据框称之为 df 它是由三个向量组成的数据框姓名年龄和邮政编码 df Name Age ZipCode 1 Joe 16 60559 2 Jim 20 60637 3 Bob 64 94127 4 Joe 23 9412
两个 pandas 列的字符串连接

我有一个关注者DataFrame from pandas import df DataFrame foo a b c bar 1 2 3 它看起来像这样 bar foo 0 1 a 1 2 b 2 3 c 现在我想要这样的东西 bar 0
汇总表中各列的字符值比例

在这种数据框中 df lt data frame w1 c A A B C A w2 c C A A C C w3 c C A B C B 我需要计算所有列中字符值的列内比例有趣的是以下代码适用于大型实际数据集但对上述玩具数据会引发错
使用 Shapeless 记录组合任意数量的状态更改函数

我正在尝试移植combineReducers从 Redux 到 Scala 这个想法是每个函数控制它的一小部分状态并且combineReducers创建一个控制整个状态的函数我无法找出应该像这样工作的函数所需的签名 sealed trai
scala 返回列表中的第一个 Some

我有一个清单l List T1 目前我正在执行以下操作 myfun T1 gt Option T2 val x Option T2 l map myfun l flatten find gt true The myfun函数返回 None
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
如何绘制堆积比例图？

我有一个数据框 x lt data frame id letters 1 3 val0 1 3 val1 4 6 val2 7 9 id val0 val1 val2 1 a 1 4 7 2 b 2 5 8 3 c 3 6 9 我想绘制一个
使用 Akka 1.3 的 actor 时，我需要注意生产者-消费者速率匹配吗？

使用 Akka 1 3 时我是否需要担心当生成消息的 Actor 生成消息的速度比使用消息的 Actor 的处理速度快时会发生什么如果没有任何机制在长时间运行的进程中队列大小将增大以消耗所有可用内存 The doc http doc
如何在 Lift 框架中添加新页面

如何在 lift 中的 webapp 目录中添加一个可供用户访问的新页面目前只能通过index html访问http localhost 8080 com http localhost 8080 or http localhost 808
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
如何在 R 中合并同名列表中的数据框？

我有一个包含很多数据框的列表如果它们具有相同的名称我想合并它们即合并所有具有相同名称 a 和 b 的数据框像这样 a lt aaaaa b lt bbbbb c lt ccccc g lt list df1 lt data fram
Scala 的“神奇”函数列表

在哪里可以找到 Scala 的神奇函数列表例如apply unapply update etc 魔法函数是指编译器的某些语法糖使用的函数例如 o update x y lt gt o x y 我用谷歌搜索了一些组合scala mag
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
用于共享大型不可变对象的工厂/缓存策略

我的问题很像上一篇文章最佳哈希集初始化 Scala Java https stackoverflow com questions 14714900 optimal hashset initialization scala java 我想用的
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
从 data.frame 在 ggplot 图例中添加信息

我想在图例中添加信息哪个传感器具有该值这是我的代码 z lt data frame a c sensor 1 sensor 2 sensor 3 sensor 4 sensor 5 sensor 6 sensor 7 sensor 8
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使

随机推荐

Puppeteer 无法在 Heroku 上运行

我在 heroku 上部署了一个应用程序并添加了 Puppeteer Heroku 构建包重新部署成功后我尝试运行它但失败了使用heroku logs t 我收到此错误消息 2018 09 07T13 16 10 870497 0
未接收 Firebase 云消息/通知。 JS

我正在尝试使用云功能将 FCM 发送到我的 React 应用程序云函数正在执行但客户端未收到通知这里是云函数代码 exports sendPush functions database ref settings2 onWrite ev
如何使用正确的编码将所有控制台输出重定向到 Swing JTextArea/JTextPane？

我一直在尝试将 System out PrintStream 重定向到 JTextPane 除了特殊区域设置字符的编码之外这工作得很好我找到了很多关于它的文档参见 ex Mindprod 编码页面但我仍在与之斗争 StackOver
在 Objective C 中隐藏头文件中的实例变量

我遇到了一个用 Objective C 编写的库我只有头文件和 a 二进制文件在头文件中是这样的 interface MyClass MySuperClass nothing here property nonatomic retai
关键字“params”到底如何工作？

以下代码示例打印 T T T 虽然前两行符合预期但为什么编译器选择 param array 作为常规数组 public class A public void Print
Android 上的 Google 语音识别器需要互联网吗？

我使用以下代码来调用谷歌的语音识别器 This is a demonstration of Android s built in speech recognizer package com example voiceinputbuiltin
删除矩阵中的重复列

我有一个尺寸为401 5677的数据集在该矩阵的列中存在相同但列名不同的列现在我想只保留重复多次的列中的一列并获取已删除列的索引 j 让我们使用以下矩阵作为示例 B matrix c 1 4 0 2 56 7 1 4 0 33 2
允许更多 WebGL 上下文

我目前正在开发一个包含项目列表的网站每个项目都有一个缩略图我使用以下方法为所有项目添加着色器效果PixiJS 问题是列表中的项目超过 16 个因此我收到以下错误警告活动的 WebGL 上下文过多最旧的上下文将丢失有没有办法提高
在 JavaScript 中创建多行字符串

我在 Ruby 中有以下代码我想把这段代码转换成 JavaScript JS 中的等效代码是什么 text lt lt HERE This Is A Multiline String HERE Update ECMAScript 6 ES
如何在 Eclipse 中关闭 ViewPart？

我在 Eclipse 中有一个视图由一个扩展的类实现 org eclipse ui part ViewPart 我需要关闭它我的意思是完全接近而不仅仅是隐藏我希望当用户或我的代码要求再次打开视图时创建一个新的 ViewPart
Cookie 总是过期的

我正在设置一个 cookie HttpCookie cookie new HttpCookie simpleorder cookie Expires DateTime Now AddYears 1 cookie order carModel
如何添加网络安全配置以在 Nougat 中启用 Charles 代理 SSL？

我正在尝试启用Charles Proxy我的 SSLSamsung s8运行于Android Nougat但不知道该怎么做 Before Nougat我能够成功记录我的设备上多个应用程序的查尔斯会话已关注this and this设置一切
类型错误：Firebase 不是函数

我正在尝试遵循 firebase Node 教程 https www firebase com docs web quickstart html 我的 node js 应用程序因 TypeError Firebase 不是函数错误而崩溃
C++11 可以判断 std::thread 是否处于活动状态吗？

令我惊讶的是一个已完成执行但尚未加入的 C 11 std thread 对象仍然是经过考虑的活动的执行线程以下代码示例对此进行了说明在 Xubuntu 13 03 上使用 g 4 7 3 构建有谁知道 C 11 标准是否提供了一种方
MVC DropDownListFor Null 值

我在 MVC 中使用 htmlhelper 的下拉列表时遇到问题当回发发生时没有选择任何内容并且列表模型中的值和所选项目为空这是我的模型 namespace MvcTestWebApp Models public class Cus
使用“for”循环对包含数字的数组进行排序

我是 JavaScript 新手我有一个包含数字的数组 var arr 2 4 8 1 5 9 3 7 6 我如何使用本地人对其进行排序for loop在 JavaScript 中我知道排序功能可用但我希望它通过for loop 输出
如果出现错误，如何使用 try...catch 并让我的脚本停止？

我试图让我的脚本在遇到错误时停止并使用 try catch 为我提供一种简单的方法来处理错误我本以为这是世界上最简单的事情但我显然在做一些愚蠢的事情我读了几个小时但我被困住了任何帮助都会非常方便谢谢这是一些示例代码我把错误
CSS 框上的斜角[重复]

这个问题在这里已经有答案了我使用 CSS 的时间很短我正在尝试制作一个普通的盒子但左上角以 45 度角切掉数额也不小我正在看那个角度的一个相当大的切角这个效果我该怎么办描述倾斜 http meyerweb com eric
Swift 协议继承和通用函数

考虑以下游乐场 import Foundation protocol StringInitable init string String class A StringInitable var stored String required i
如何在 Apache Spark 中获取上一行的数据

从 Spark Data 框架中查找每个城市上个月的销售情况 City Month Sale c1 JAN 2017 49 c1 FEB 2017 46 c1 MAR 2017 83 c2 JAN 2017 59 c2 MAY 2017 6

如何在 Apache Spark 中获取上一行的数据

如何在 Apache Spark 中获取上一行的数据 的相关文章

随机推荐

热门标签

如何在 Apache Spark 中获取上一行的数据的相关文章