如何计算Spark结构化流中的滞后差？

2023-11-23

我正在编写 Spark 结构化流程序。我需要创建一个具有滞后差的附加列。

为了重现我的问题，我提供了代码片段。这段代码消耗data.json文件存储在data folder:

[
  {"id": 77,"type": "person","timestamp": 1532609003},
  {"id": 77,"type": "person","timestamp": 1532609005},
  {"id": 78,"type": "crane","timestamp": 1532609005}
]

Code:

from pyspark.sql import SparkSession
import pyspark.sql.functions as func
from pyspark.sql.window import Window
from pyspark.sql.types import *

spark = SparkSession \
    .builder \
    .appName("Test") \
    .master("local[2]") \
    .getOrCreate()

schema = StructType([
    StructField("id", IntegerType()),
    StructField("type", StringType()),
    StructField("timestamp", LongType())
])

ds = spark \
    .readStream \
    .format("json") \
    .schema(schema) \
    .load("data/")

diff_window = Window.partitionBy("id").orderBy("timestamp")
ds = ds.withColumn("prev_timestamp", func.lag(ds.timestamp).over(diff_window))

query = ds \
    .writeStream \
    .format('console') \
    .start()

query.awaitTermination()

我收到此错误：

pyspark.sql.utils.AnalysisException：u'非基于时间的窗口不是支持流数据帧/数据集；;\nWindow [lag(timestamp#71L, 1, null) windowspecdefinition(host_id#68, timestamp#71L ASC 首先为空，前 1 行和 1 之间的行前）AS prev_timestamp#129L]

pyspark.sql.utils.AnalysisException：u'流数据帧/数据集不支持基于时间的窗口

这意味着您的窗口应该基于timestamp柱子。所以如果你每秒都有一个数据点，然后你做一个30s窗口有一个stride of 10s，您生成的窗口将创建一个新的window列，与start and end包含时间戳差异的列30s.

您应该以这种方式使用该窗口：

words = words.withColumn('date_time', F.col('date_time').cast('timestamp'))

w = F.window('date_time', '30 seconds', '10 seconds')
words = words \
   .withWatermark('date_format', '1 minutes') \
   .groupBy(w).agg(F.mean('value'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

SparkStructuredStreaming

如何计算Spark结构化流中的滞后差？的相关文章

在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
如何在 AWS Glue 中指定联接类型？

我正在使用 AWS Glue 连接两个表默认情况下它执行INNER JOIN 我想做一个LEFT OUTER JOIN 我参考了 AWS Glue 文档但无法将联接类型传递给Join apply 方法有没有办法在 AWS Glue
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
如何从DataFrame中获取最后一行？

我有一个DataFrame 该DataFrame有两列 value 和 timestamp timestmp 是有序的我想获取DataFrame的最后一行我该怎么办这是我的输入 value timestamp 1 1 4 2 3 3
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计
如何从 Spark 数据框中删除重复项，同时保留最新数据？

我正在使用 Spark 从 Amazon S3 加载 json 文件我想根据保留最新数据帧的两列删除重复项我有时间戳列最好的方法是什么请注意重复项可能分布在多个分区中我可以在不打乱的情况下删除保留最后一条记录的重复项吗我正在处
如何找到两个数据帧之间的精确和非精确匹配？

我有两个数据框 df1 id amount fee 1 10 00 5 0 2 20 0 3 0 3 90 130 0 4 120 0 35 0 df2 exId exAmount exFee 1 10 00 5 0 2 20 0 3 0
尝试从 Spark 连接到 Oracle

我正在尝试将 Oracle 连接到 Spark 并希望从某些表和 SQL 查询中提取数据但我无法连接到 Oracle 我尝试过不同的解决方案但没有看到我已按照以下步骤操作如果我需要进行任何更改请纠正我我使用的是 Windows
如何指定spark-submit使用的Python版本？

我有两个版本的Python 当我使用 Spark submit 启动 Spark 应用程序时该应用程序使用默认版本的 Python 但是我想使用另一个如何指定spark submit使用的Python版本您可以设置PYSPARK P
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
具有定期更新的静态数据集的结构化流

将流媒体与静态数据集合并是结构化流媒体的一个重要功能但在每个批次中数据集都会从数据源刷新由于这些源并不总是那么动态因此在指定的时间段或批次数内缓存静态数据集会提高性能在指定的时间段批次数之后将从源重新加载数据集否则从缓存
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
S3A：失败，而 S3：在 Spark EMR 中工作

我将 EMR 5 5 0 与 Spark 结合使用如果我使用一个简单的文件写入 s3s3 网址写得很好但如果我使用s3a 地址它失败了Service Amazon S3 Status Code 403 Error Code Acces

随机推荐

$@ 和“$@”有什么区别吗？ [复制]

这个问题在这里已经有答案了有什么区别吗 and 我知道非特殊字符可能存在差异但是用输入参数签名 Yes cat a sh echo echo 让我们运行一下 a sh 2 3 4 5 2 3 4 5 output for 2 3 4
如何使用透明背景的画布获取 CSS 样式元素的 png 图像？

我想使用 CSS 为网页上的元素设置样式然后将该元素用作静态 png 是否可以在例如上绘制html节点画布并将此类透明图像保存到文件中我想找到一种方法使用 CSS 获取现有的 HTML 并将其渲染为 PNG 文件并保持透明度将 H
clang++ -stdlib=libc++ 导致未定义的引用

为什么在将 clang 与 libc 一起使用时出现以下链接器错误 clang stdlib libc po cxx lpoppler tmp po QqlXGY o In function main po cxx text 0x33 un
仅对 UITableView 中可用的 CellForRow 显示分隔符

我正在将 UITableView 与自定义单元格一起使用它工作正常但问题是当 UITableView 中只有一两个单元格时它还为空电池提供了分隔符是否可以仅为使用自定义单元格加载的单元格显示分隔符您需要添加一个空页脚视图来隐藏表中
如何从多个 template_folder 加载 Flask 蓝图？

我学习了如何创建 Flask 蓝图并且可以为使用 Jinja2 模板的非 Flask 产品创建蓝图并在 Flask 项目中使用它们我做了这样的事情 blueprint code from flask import Blueprint f
如何在没有 jQuery 的情况下切换元素可见性？

我正在为 eBay 编写一个拍卖模板希望 eBay 能够允许显然他们没有因为 jquery 有 string replace 等东西该代码非常基础 document ready function function changeIma
Pandas Dataframe选择多个不连续的列/切片

我有超过 100 列的数据框我正在尝试选择第 0 32 列和 83 列看来 1 slice 与下面的代码配合得很好 df new df df columns 0 32 但它不适用于下面的 2 片代码我该如何解决这个问题 df new
更改 ComboBox 项目的格式

是否可以在 C 中格式化 ComboBox 项例如如何将某个项目设为粗体更改其文本的颜色等尽管这篇文章很老我发现它作为搜索的起点很有用但最终使用所示的方法得到了更好的结果here由保罗这是我用来有条件地使组合框中的项目显示为
如何为 httpclient getasync 方法创建模拟？

我正在使用 Moq 为单元测试创建模拟但是当我必须为 httpclient 的 getasync 方法创建模拟时我陷入了困境以前我使用 SendAsync 方法为此我可以使用以下代码 var mockResponse new Ht
从word文档中提取标题文本

我正在尝试提取text来自 MS Word 文档 docx 文件中的任何级别标题目前我正在尝试解决使用python docx 但不幸的是读完后我仍然无法弄清楚它是否可行也许我错了我尝试在网上寻找解决方案但没有发现任何适合我的
我可以替换或修改 jQuery UI 小部件上的函数吗？如何？（猴子补丁）

如果我想通过替换其中一个函数来调整 jQuery UI 对象的某些功能我该怎么做呢示例假设我想修改 jQuery 自动完成小部件呈现建议的方式自动完成对象上有一个方法如下所示 renderItem function ul item
如何使用 scikit-learn 评估预测的置信度得分

我写下了一个简单的代码它采用一个参数 query seq 进一步的方法计算描述符最后可以使用 LogisticRegression 或该函数提供的任何其他算法算法作为 0 给定情况为负进行预测或 1 给定情况为正 def main
从 NSArray 中检索 NSDictionary，其中字典键的值为 X

我有一个NSArray with NSDictionaries 数组之一中的字典键之一包含一个值我想找回NSDictionary具有该值我的阵列 Array DisplayName level InternalName Number 2
如何在 podfile 中为 Xcode 项目指定多个目标？

我在 Xcode 4 项目中使用 CocoaPods 我的项目有三个目标默认目标一个用于构建精简版本一个用于构建演示版本所有目标都使用相同的库但 CocoaPods 仅将静态库和搜索路径添加到主要目标我的 podfile 看起来
R 中的动态 selectInput 闪亮

我有 3 个 selectInput 框和一组 4 个选项可以通过这 3 个框进行选择我希望 selectInputs 显示的选项在选择其他 selectInputs 时动态更改不过我希望所有三个框在任何时间点都可以使用无选项
Javascript 对象属性是否按顺序分配？

假设我有一个对象它根据函数的返回值分配属性 var i 0 var f function return i var foo a f b f c f 是否保证 foo a 为 1 foo b 为 2 foo c 为 3 我知道 JS 不保证
Python Paramiko（客户端）多重身份验证

我正在尝试使用 Paramiko 在 Python 2 7 上连接到使用多重身份验证用户名密码一次性密码的主机这transport auth interactive函数似乎是执行此操作的方法根据我从文档中理解的内容但执行从未
对 .net 混淆代码进行逆向工程有多容易？

市场上有一些程序可以用来混淆您的 net 代码我的问题是如果您的代码被所谓混淆了那么别人获取您的 IP 有多容易混淆 net 代码仅仅是橡皮鸡安全吗或者说它足以真正保护您的知识产权吗混淆就像门锁它让诚实的人保持诚实
插入值语句只能包含 SQL 数据仓库中的常量文字值或变量引用

考虑这个表 CREATE TABLE t i int j int 我想将一组数据插入到表中SELECT声明我的查询的简化版本是 INSERT INTO t VALUES SELECT 1 SELECT 2 真正的查询可能要复杂得多并且各
如何计算Spark结构化流中的滞后差？

我正在编写 Spark 结构化流程序我需要创建一个具有滞后差的附加列为了重现我的问题我提供了代码片段这段代码消耗data json文件存储在data folder id 77 type person timestamp 153260

如何计算Spark结构化流中的滞后差？

如何计算Spark结构化流中的滞后差？ 的相关文章

随机推荐

热门标签

如何计算Spark结构化流中的滞后差？的相关文章