如何在spark结构化流连接中选择最新记录

2023-12-12

我使用的是spark-sql 2.4.x版本，datastax-spark-cassandra-connector用于Cassandra-3.x版本。和卡夫卡一起。

我有货币样本的汇率元数据如下：

val ratesMetaDataDf = Seq(
     ("EUR","5/10/2019","1.130657","USD"),
     ("EUR","5/9/2019","1.13088","USD")
     ).toDF("base_code", "rate_date","rate_value","target_code")
.withColumn("rate_date", to_date($"rate_date" ,"MM/dd/yyyy").cast(DateType))
.withColumn("rate_value", $"rate_value".cast(DoubleType))

我从kafka主题收到的销售记录是，如下（示例） :

val kafkaDf = Seq((15,2016, 4, 100.5,"USD","2021-01-20","EUR",221.4)
                                ).toDF("companyId", "year","quarter","sales","code","calc_date","c_code","prev_sales")

要计算“prev_sales”，我需要获取其“c_code”各自的“rate_value”，它最接近“calc_date”，即rate_date”

我正在做如下

val w2 = Window.orderBy(col("rate_date") desc)
val rateJoinResultDf = kafkaDf.as("k").join(ratesMetaDataDf.as("e"))
                                   .where( ($"k.c_code" === $"e.base_code") &&
                                           ($"rate_date" < $"calc_date")
                                         ).orderBy($"rate_date" desc)
                                  .withColumn("row",row_number.over(w2))
                                  .where($"row" === 1).drop("row")
                                  .withColumn("prev_sales", (col("prev_sales") * col("rate_value")).cast(DoubleType))
                                  .select("companyId", "year","quarter","sales","code","calc_date","prev_sales")

在上面，为了获取给定“rate_date”的最近记录（即来自 ratesMetaDataDf 的“5/10/2019”），我使用 window 和 row_number 函数并按“desc”对记录进行排序。

但在spark-sql流中它导致了如下错误

"
Sorting is not supported on streaming DataFrames/Datasets, unless it is on aggregated DataFrame/Dataset in Complete output mode;;"

那么如何获取第一条记录加入上面呢。

将最后一个代码部分替换为以下代码。这段代码会做left join并计算日期差calc_date & rate_date. Next Window函数我们将选择最近的日期并计算prev_sales通过使用相同的计算。

请注意我添加了一个过滤条件filter(col("diff") >=0), 这将处理以下情况calc_date < rate_date。我加了几个更多记录，以便更好地了解此案。

scala> ratesMetaDataDf.show
+---------+----------+----------+-----------+
|base_code| rate_date|rate_value|target_code|
+---------+----------+----------+-----------+
|      EUR|2019-05-10|  1.130657|        USD|
|      EUR|2019-05-09|   1.12088|        USD|
|      EUR|2019-12-20|    1.1584|        USD|
+---------+----------+----------+-----------+


scala> kafkaDf.show
+---------+----+-------+-----+----+----------+------+----------+
|companyId|year|quarter|sales|code| calc_date|c_code|prev_sales|
+---------+----+-------+-----+----+----------+------+----------+
|       15|2016|      4|100.5| USD|2021-01-20|   EUR|     221.4|
|       15|2016|      4|100.5| USD|2019-06-20|   EUR|     221.4|
+---------+----+-------+-----+----+----------+------+----------+


scala>  val W = Window.partitionBy("companyId","year","quarter","sales","code","calc_date","c_code","prev_sales").orderBy(col("diff"))

scala>   val rateJoinResultDf= kafkaDf.alias("k").join(ratesMetaDataDf.alias("r"), col("k.c_code") === col("r.base_code"), "left")
                                         .withColumn("diff",datediff(col("calc_date"), col("rate_date")))
                                         .filter(col("diff") >= 0)
                                         .withColumn("closedate", row_number.over(W))
                                         .filter(col("closedate") === 1)
                                         .drop("diff", "closedate")
                                         .withColumn("prev_sales", (col("prev_sales") * col("rate_value")).cast("Decimal(14,5)"))
                                         .select("companyId", "year","quarter","sales","code","calc_date","prev_sales")

scala> rateJoinResultDf.show
+---------+----+-------+-----+----+----------+----------+
|companyId|year|quarter|sales|code| calc_date|prev_sales|
+---------+----+-------+-----+----+----------+----------+
|       15|2016|      4|100.5| USD|2021-01-20| 256.46976|
|       15|2016|      4|100.5| USD|2019-06-20| 250.32746|
+---------+----+-------+-----+----+----------+----------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

SparkStreaming

apachesparkdataset

如何在spark结构化流连接中选择最新记录的相关文章

如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何从字符串列中提取数字？

我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1

随机推荐

PHP Http请求

我需要从 PHP 执行 HTTP GET 更具体地说从 index php 中我需要获取 trac 和 svn 的内容找到 ul 元素然后渲染然后内联到 index php 上 trac 和 svn 是相对 URL 而不是文件系统
Sendmail插入！电子邮件中间 990 个字符后的符号

我使用 sendmail v 从 sendmail 发送邮件电子邮件受保护 https infoeu mytotalconnectcomfort com 我不明白为什么sendmail会插入额外的字符 p Dear Mr Ms scure
如何获取在画布中构成圆的坐标数组？

因此如果这是我用来在画布上画圆的代码 ctx beginPath ctx arc centerX centerY radius 0 2 Math PI false ctx lineWidth 3 ctx strokeStyle black
带有特殊字符的Sql查询-如何处理？

我有几个雇员的名字比如 john 1 魔鬼的 corn 像这样的东西现在当我搜索这些名称时我正在使用 select from emp where empname like john 1 devil s corn 但我没有得到预期值
jQuery AJAX 将 url 作为字符串传递

我有一个 ajax 函数它将一串变量传递给我的脚本但我有一个变量需要包含带有参数的完整 url 发生的情况是 var1 和 var2 成为 POST 变量但我需要将整个 url 变量保存为字符串 var url http domain
在 Python 3.7+ 中更改 dict 中的键顺序

Since dict对象在 Python 3 7 中具有本机键顺序 https docs python org 3 whatsnew 3 7 html 应该有一种方法来管理订单有官方文档可供我阅读吗在我的具体情况下我想解决这些问题无需
多列上的数据透视

我有这样的数据 Product Group Product Level Quatity Sold Trend Group 1 L1 10 up Group 1 L2 20 up Group 1 L3 30 down Group 2 L1 2
.Net 2.0 上的 C# 3.0 兼容性

什么是C 3 0我们可以在面向 Net 2 0 框架的应用程序中使用哪些语言功能 PS 我知道很少有像 Lambda 表达式这样的var keyword 我有一个关于这个主题的文章简单来说支持的自动实现的属性隐式类型局部变量和数组
泛型类中不明确/冲突的构造函数

我有一个通用类 public class BaseFieldValue
如何在 Access 2010 中保存 RichTextBox 内容

我正在创建一个字典系统其中单词含义可以编辑RichTextBox 供用户定义字体大小颜色等那么我怎样才能保存意义RichTextBoxAccess 数据库中的内容是否为 RTF 格式我怎样才能读到这个 Access 2007 201
如何判断鼠标在 .click() 期间是否移动？

根据 jQuery 文档 click 只有在这一系列事件之后才会触发事件当指针位于元素内时按下鼠标按钮当指针位于元素内时释放鼠标按钮我面临的问题是我在项目网格上使用单击拖动功能我想为每个项目注册单击事件这意味着每次我单击拖动
MpChart 在条形图的 X 轴上绘制图标作为标签

Hi I would like to draw icons in xaxis of the bar chart instead of values Like the chart below 您必须创建自己的自定义渲染器并将其应用到您的图表
ViewModel 中的依赖属性有什么例子吗？

有人可以给出 WPF 中 ViewModel 中的依赖属性作为数据上下文传递给视图的示例吗这需要从 DependencyObject 继承吗假设我希望 ListBox SelectedItem 绑定到 ViewModel 中的依赖属性
jquery 焦点回到相同的输入字段，错误不适用于所有浏览器

我有一个包含多个字段的表单其中既有动态创建的字段又有一些预定义的字段其中一个字段使用 jquery timepicker 插件由http jonthornton github io jquery timepicker 现在我的问题是我
在 Swagger 中上传文件并在 Flask 后端接收

我正在尝试使用 Swagger 和 Flask 上传文件我对招摇有以下配置 user register post tags user summary Register a new user description operationId
“_attribute_((aligned(4)));”的含义是什么在第一行？

char buf BUF LEN attribute aligned 4 ssize t len i 0 read BUF LEN bytes worth of events len read fd buf BUF LEN loop ove
chrome扩展弹出窗口无法通过ID找到元素

我知道类似的问题已经被问过很多次了但我还没有找到适合我的解决方案我的问题很简单我想做的就是测试 popup html 上的操作因为在这里我在弹出窗口上有一个单击按钮当我单击它时我想显示警报但什么也没发生它没有找到该元素我
Flutter添加ScrollView和背景图片

您好我正在尝试将 ScollView 添加到我的应用程序中但问题是我不能同时拥有 ScrollView 和背景图像所以如果有人可以帮助我这里我放置了背景图像那么我现在如何放置滚动视图我有两个工作但不是同时工作我使用的滚动视图
启动多个线程并重新启动它们

我正在尝试编写一个系统在其中创建 x 个工作线程这些线程将在不同的时间完成它们的工作当它们中的任何一个完成工作时我将检查它们的输出并再次重新启动它们将运行的线程数保持在 x 左右我将进行多次任意迭代因此基本上控制器线程将启动
如何在spark结构化流连接中选择最新记录

我使用的是spark sql 2 4 x版本 datastax spark cassandra connector用于Cassandra 3 x版本和卡夫卡一起我有货币样本的汇率元数据如下 val ratesMetaDataDf Seq

如何在spark结构化流连接中选择最新记录

如何在spark结构化流连接中选择最新记录 的相关文章

随机推荐

热门标签

如何在spark结构化流连接中选择最新记录的相关文章