这个用例可以通过 Spark 的滞后/任何其他功能来完成吗？

2024-03-08

我使用的是spark-2.4.1v。我的项目中有一个用例，对于每个日期（process_date），我需要考虑当天的记录和前一天的记录，并对该数据集执行某些其他操作。那么如何为此准备数据集呢？我尝试使用滞后函数但没有取得太大成功。

对于上述用例，给出的数据如下：

+----------+----------+----+-------+------------+-----------+
|company_id|  gen_date|year|quarter|total_assets|create_date|
+----------+----------+----+-------+------------+-----------+
| 989856662|2019-01-02|2019|      1| 3900.435058| 2019-09-11|
| 989856665|2019-01-02|2019|      1| 4836.435058| 2019-09-11|
| 989856667|2019-01-02|2019|      1| 5836.435058| 2019-09-11|
| 989856662|2019-01-01|2019|      1| 3800.435058| 2019-09-11|
| 989856665|2019-01-01|2019|      1| 3834.435058| 2019-09-11|
| 989856667|2019-01-01|2019|      1| 5834.435058| 2019-09-11|
| 989856662|2018-12-31|2018|      4| 3700.435058| 2019-09-11|
| 989856665|2018-12-31|2018|      4| 3900.435058| 2019-09-11|
| 989856667|2018-12-31|2018|      4| 5833.435058| 2019-09-11|
| 989856662|2018-12-30|2018|      4| 3832.435058| 2019-09-11|
| 989856665|2018-12-30|2018|      4| 3700.435058| 2019-09-11|
| 989856667|2018-12-30|2018|      4| 5832.435058| 2019-09-11|
+----------+----------+----+-------+------------+-----------+

这里 gen_date 是关键列。对于每个 gen_date，我需要获取其先前可用的 gen_date 记录。这些将按设置一起处理，即对于 process_date 2019-01-02，它应该具有 2019-01-02 和 2019-01-01 的记录，就像 gen_date 2018-12-30 及其之前的 gen_date 的 process_date 记录一样，即2018-12-29，但这里的 2018-12-29 gen_date 记录不可用，因此应被视为 gen_date 2018-12-30 记录。

在给定的集合中：

对于 process_date 2019-01-02 => ( gen_date 2019-01-02 ) 的记录 + ( gen_date 2019-01-01 ) 的记录
对于 process_date 2019-01-01 => ( gen_date 2019-01-01 ) 的记录 + ( gen_date 2018-12-31 ) 的记录
对于 process_date 2018-12-31 => ( gen_date 2018-12-31 ) 的记录 + ( gen_date 2018-12-30 ) 的记录
对于 process_date 2018-12-30 => ( gen_date 2018-12-30 ) 的记录 + 没有以前的 gen_date 记录。

输出应如下所示：

+----------+------------+----------+----+-------+------------+-----------+
|company_id|process_date|  gen_date|year|quarter|total_assets|create_date|
+----------+------------+----------+----+-------+------------+-----------+
| 989856662|  2019-01-02|2019-01-02|2019|      1| 3900.435058| 2019-09-11|
| 989856662|  2019-01-02|2019-01-01|2019|      1| 3800.435058| 2019-09-11|
| 989856665|  2019-01-02|2019-01-02|2019|      1| 4836.435058| 2019-09-11|
| 989856665|  2019-01-02|2019-01-01|2019|      1| 3834.435058| 2019-09-11|
| 989856667|  2019-01-02|2019-01-02|2019|      1| 5836.435058| 2019-09-11|
| 989856667|  2019-01-02|2019-01-01|2019|      1| 5834.435058| 2019-09-11|
| 989856662|  2019-01-01|2019-01-01|2019|      1| 3800.435058| 2019-09-11|
| 989856662|  2019-01-01|2018-12-31|2018|      4| 3700.435058| 2019-09-11|
| 989856665|  2019-01-01|2019-01-01|2019|      1| 3834.435058| 2019-09-11|
| 989856665|  2019-01-01|2018-12-31|2018|      4| 3900.435058| 2019-09-11|
| 989856667|  2019-01-01|2019-01-01|2019|      1| 5834.435058| 2019-09-11|
| 989856667|  2019-01-01|2018-12-31|2018|      4| 5833.435058| 2019-09-11|
| 989856662|  2018-12-31|2018-12-31|2018|      4| 3700.435058| 2019-09-11|
| 989856662|  2018-12-31|2018-12-30|2018|      4| 3832.435058| 2019-09-11|
| 989856665|  2018-12-31|2018-12-31|2018|      4| 3900.435058| 2019-09-11|
| 989856665|  2018-12-31|2018-12-30|2018|      4| 3700.435058| 2019-09-11|
| 989856667|  2018-12-31|2018-12-31|2018|      4| 5833.435058| 2019-09-11|
| 989856667|  2018-12-31|2018-12-30|2018|      4| 5832.435058| 2019-09-11|
| 989856662|  2018-12-30|2018-12-30|2018|      4| 3832.435058| 2019-09-11|
| 989856665|  2018-12-30|2018-12-30|2018|      4| 3700.435058| 2019-09-11|
| 989856667|  2018-12-30|2018-12-30|2018|      4| 5832.435058| 2019-09-11|
+----------+------------+----------+----+-------+------------+-----------+

如何实现上述输出？

下面是所附的笔记本网址。

https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/1165111237342523/988191344931748/7035720262824085/latest.html https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/1165111237342523/988191344931748/7035720262824085/latest.html

为了获取给定的前一天的详细信息gen_date和company_id，您可以使用滞后函数，如下所示spec,

val windowSpec  = Window.partitionBy("company_id").orderBy("gen_date") 

val intermediateDF = finDF
  .withColumn("previous_gen_date", lag("gen_date",1).over(windowSpec))

上述步骤将根据company_id和gen_date为您获取上一代日期，您可以将此数据与您的原始数据连接起来以获得相关的前一天数据。

val finalDF = intermediateDF.alias("a")
  .join(finDF.alias("b"), col("a.company_id") === col("b.company_id") &&
    col("a.previous_gen_date") === col("b.gen_date"), "left_outer")
    .select(col("a.*"),
      col("b.year").as("previous_gen_date_year"),
      col("b.quarter").as("previous_gen_date_quarter"),
      col("b.total_assets").as("previous_gen_date_total_assets"),
      col("b.create_date").as("previous_gen_date_create_date")
    )

上述连接将产生前一天的完整数据以及生成日期。

+----------+----------+----+-------+------------+-----------+-----------------+----------------------+-------------------------+------------------------------+-----------------------------+
|company_id|gen_date  |year|quarter|total_assets|create_date|previous_gen_date|previous_gen_date_year|previous_gen_date_quarter|previous_gen_date_total_assets|previous_gen_date_create_date|
+----------+----------+----+-------+------------+-----------+-----------------+----------------------+-------------------------+------------------------------+-----------------------------+
|989856662 |2018-12-30|2018|4      |3832.435058 |2019-09-11 |null             |null                  |null                     |null                          |null                         |
|989856662 |2018-12-31|2018|4      |3700.435058 |2019-09-11 |2018-12-30       |2018                  |4                        |3832.435058                   |2019-09-11                   |
|989856662 |2019-01-01|2019|1      |3800.435058 |2019-09-11 |2018-12-31       |2018                  |4                        |3700.435058                   |2019-09-11                   |
|989856662 |2019-01-02|2019|1      |3900.435058 |2019-09-11 |2019-01-01       |2019                  |1                        |3800.435058                   |2019-09-11                   |
+----------+----------+----+-------+------------+-----------+-----------------+----------------------+-------------------------+------------------------------+-----------------------------+

在这里你的gen_date也可以充当process_date列，您可以使用此比较任何操作的两天数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

这个用例可以通过 Spark 的滞后/任何其他功能来完成吗？的相关文章

如何仅注释堆积条形图的一个类别

我有一个数据框示例如下所示 data Date 2021 07 18 2021 07 19 2021 07 20 2021 07 21 2021 07 22 2021 07 23 Invalid NaN 1 1 NaN NaN NaN N
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
使用 Tabula 通过 Python 读取 pdf 时出现 Java 错误

我已经安装了 tabula 库用于使用 python 将 pdf 读取到 pandas 数据框中但是当我运行代码时 import tabula df tabula read pdf sample1 pdf pages 1 我得到了例外
从 data.frame 中提取时用 NA 填充缺失的列

我有一个函数它将具有某些列的数据框作为输入 columns a b z 现在我有一个数据框DF只有很少的这些列DF columns f u z 如果列不在其中如何创建一个包含所有值为 NA 的列的数据框DF这与DF在柱子上 f u z
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
如果条目出现次数少于 x 则删除数据框中的行

我有以下数据框称之为 df 它是由三个向量组成的数据框姓名年龄和邮政编码 df Name Age ZipCode 1 Joe 16 60559 2 Jim 20 60637 3 Bob 64 94127 4 Joe 23 9412
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如何将同一行中以逗号分隔的值拆分到R中的不同行

我有一些数据来自谷歌表格 https forms gle rGQQL3tvA1PrE4dD8我想拆分以逗号分隔的答案 and 复制参与者的 ID 数据如下 gt head data names Q2 Q3 Q4 1 PART 1 fruit
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
Pandas dataframe.hist() 更改子图上的标题大小？

我正在使用 pandas Python 操作 DataFrame 我的数据是 10000 行 X 20 列我正在将其可视化如下所示 df hist figsize 150 150 但是如果我将 Figsize 增大每个子图的标题即
使用 dtypes read_csv 但列中没有值[重复]

这个问题在这里已经有答案了我使用以下代码来读取 csv 通过指定每个列的类型 clean pdf type pd read csv table updated csv usecols col names dtype col types 但
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检

随机推荐

如何比较两个数组，删除相似的项目，而不迭代整个数组？

是否可以比较两个数组并删除相等的值如果它们位于相同的索引而不需要迭代两个数组这是一个例子 array1 1 2 3 4 5 6 7 23 44 array2 1 1 3 4 5 7 6 23 45 array3 sudo compar
提供 if 语句问题的函数返回

我在从 golang 的 if 语句中返回函数的预期返回语句时遇到问题我提供了以下代码 package main import fmt func random string var x return if x return return
生命周期困境与另一项活动的方向变化

我在 tabhost 中有 2 项活动在 Activity1 中我处理方向变化以及用户在 Activity 之间切换时的情况当用户从 Activity1 切换到 Activity2 通过选项卡选择执行方向更改然后切换回 Activ
限制 python 程序的 RAM 使用

我试图将 Python 程序的 RAM 使用量限制为一半这样当使用所有 RAM 时它就不会完全冻结为此我使用了以下代码该代码不起作用并且我的笔记本电脑仍然冻结 import sys import resource def memor
Haskell 中的“子类化”显示？

可以说我有以下内容 data Greek Alpha Beta Gamma Phi deriving Show 我想使用除 Beta 之外的所有项目的默认显示我想说两个我可以这样做吗 deriving Show使用标准实例化机制简单
如何在 Safari 中打开 url 并返回到 Xcode 7 中 UITests 下的应用程序？

这是我的自定义视图 LondonStreet 是一个按钮当我点击该按钮时我会获取 url 并在 Safari 中打开它它有效然后我可以返回使用 Back to Wishlist 按钮它也有效问题是当我尝试在 UITests 下
如何设置 select2 下拉列表的最小宽度和最大宽度？

我在响应式 div 中有一个 select2 下拉菜单该 div 还有一个侧边栏元素列其中包含用户从下拉列表中进行的选择他们可以选择一个选项并将其添加到侧边栏一切正常但我在下拉菜单中有一个很长的选项如果用户选择此选项则父 d
Woocommerce Checkout：在国家/地区下拉列表中添加占位符[重复]

这个问题在这里已经有答案了在我的 Woocommerce Shop 结账处有一个下拉菜单可以选择您所在的国家地区默认情况下美国已被自动选择如何只使用选择您所在国家地区的占位符我找不到这个主题的任何解决方案有人有什么想法吗
以编程方式编辑 Google 电子表格

我编写了一个接受用户输入的程序但现在我希望能够通过在每次用户提交表单时编辑 Google 电子表格来保存该输入基本上 Google 电子表格会不断更新谁能提供有关我如何实现这一目标的教程我正在使用 Eclipse 用 Ja va 进
如何在 Windows 上控制 Python 的交互式控制台输入/输出？

我需要控制一个Windows程序它通过调用直接从控制台读取输入 kbhit and getch from
如何将列表框的值从jsp传递到servlet？

我的 JavaScript 是 function takeListBoxValue document frmPartnerList submit var selectArray new Array for i 0 i lt partnerL
javascript中的${variable}是什么[重复]

这个问题在这里已经有答案了我见过使用 startX startY 在 JavaScript 中这对我来说是全新的我喜欢使用它的想法但不知道这是证明 let cumulativePercent 0 function getCoordi
如何更新 PyInstaller 生成的 exe 详细信息？

我已经使用 PyInstaller 创建可执行文件并想要更新 exe 详细信息例如File description File version 下面是我用过的命令 PyInstaller onefile icon favicon ico m
我的 Docker 无法在 Windows 10 Pro 上启动

我在 Windows 10 专业版 PC 上设置 Docker 时遇到了一些问题当我尝试打开它时我收到此崩溃报告崩溃报告截图 https i stack imgur com uwkDZ png 这是框内的文字 System Inval
使用sql递归计算形成树

我正在解决一个简单的问题并想使用 SQL 来解决它我有 3 个表 Category Item 和一个关系表 CategoryItem 我需要返回每个类别的项目计数但问题是类别按父子关系排列并且子类别中的项目计数应添加到其父类别中的计
为什么重载方法的优先级低于实例方法

我有基础班A public class A public virtual void Method A parameter Console WriteLine MethodBase GetCurrentMethod public virtua
OS X 10.11 El Capitan 上的蓝牙低功耗延迟/延迟

我一直在开发一个 Mac OS X 应用程序该应用程序通过低功耗蓝牙连续向硬件设备发送命令在 Yosemite 环境下该应用程序运行良好测得命令传输的往返延迟为 7 12 毫秒该命令以最小 2 秒最大 0 2 秒的稳定间隔发送到
配置文件无效，但证书和应用程序 ID 有效，这是为什么

我的配置文件突然变得无效几天前我登录了developer apple com 一切都很好今天我再次登录惊讶地发现我的开发配置文件和分发配置文件都无效了证书和App ID都是有效的我没有撤销任何一个而且根本没有过期那么为什么我的
使用 try-with-resources 或在“finally”子句中关闭此“BufferedReader”

一直在寻找解决此问题的方法阅读了之前的所有答案但没有一个对我有帮助 SonarQube 可能有什么错误吗 public class Br public String loader String FilePath BufferedRead
这个用例可以通过 Spark 的滞后/任何其他功能来完成吗？

我使用的是spark 2 4 1v 我的项目中有一个用例对于每个日期 process date 我需要考虑当天的记录和前一天的记录并对该数据集执行某些其他操作那么如何为此准备数据集呢我尝试使用滞后函数但没有取得太大成功对于上述用例

这个用例可以通过 Spark 的滞后/任何其他功能来完成吗？

这个用例可以通过 Spark 的滞后/任何其他功能来完成吗？ 的相关文章

随机推荐

热门标签

这个用例可以通过 Spark 的滞后/任何其他功能来完成吗？的相关文章