PySpark 流式处理：窗口和转换

2024-01-22

我正在尝试从 Spark 流数据源读取数据，按事件时间对其进行窗口化，然后对窗口化数据运行自定义 Python 函数（它使用非标准 Python 库）。

我的数据框看起来像这样：

| Time                    | Value |
| 2018-01-01 12:23:50.200 | 1234  |
| 2018-01-01 12:23:51.200 |   33  |
| 2018-01-01 12:23:53.200 |  998  |
|           ...           |  ...  |

窗口似乎与 Spark SQL 配合得很好，使用如下内容：

windowed_df = df.groupBy(window("Time", "10 seconds"))

...，并且有一个部分是关于Spark 结构化流处理文档中按事件时间进行窗口化 https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#window-operations-on-event-time所以我认为这应该适用于 Spark 结构化流。

到目前为止，一切都很好。

另外，我已经能够使用 Spark Streaming (DStream) 来应用我的自定义转换操作，该操作当前在传入流上运行（基本上，它假设数据以正确的窗口块形式出现，这是我试图摆脱的假设的）。代码看起来像这样：

def my_analysis(input_rdd):
    # convert RDD to native types (would also be possible from a DataFrame)
    # run through various Python libs
    # construct new RDD with results - 1 row, multiple values (could construct new DataFrame here instead)

my_dstream\
    .map(deserialize_from_string)\
    .transform(my_analysis)\
    .map(serialize_to_string)\
    .foreachRDD(write_to_sink)

我现在基本上想将两者结合起来，所以做类似的事情：

df\
    .groupBy(window("Time", "10 seconds"))\
    .transform(my_analysis)\  # how do I do this with pyspark.sql.group.GroupedData?
    .writeStream  # ...

# OR:

my_dstream\
    .map(deserialize_from_string)\
    .window_by_event_time("10 seconds")\  # how do I do this with a DStream?
    .transform(my_analysis)\
    .map(serialize_to_string)\
    .foreachRDD(write_to_sink)

知道我如何才能实现上述目标吗？

我尝试过的事情：

我可以在 windowed_df 上运行的功能似乎非常有限，基本上 IPython 建议我只能在这里进行聚合（min/max/avg/agg with pyspark.sql.函数 http://spark.apache.org/docs/2.2.1/api/python/pyspark.sql.html#module-pyspark.sql.functions). agg似乎最有用，但迄今为止我在该领域发现的最好的方法是使用collect_list，像这样：

    windowed_df.agg(collect_list("Value")).sort("window").show(20, False)

...但这意味着我失去了时间戳。

PySpark 不支持自定义聚合函数 (UDAF)（SPARK-10915 https://issues.apache.org/jira/browse/SPARK-10915)

我看过的其他事情：

Apache Spark 结构化流中的任意状态处理 https://databricks.com/blog/2017/10/17/arbitrary-stateful-processing-in-apache-sparks-structured-streaming.html- mapGroupWithState 听起来好像它可以做我想要的（甚至更多），但在 PySpark 中尚不可用。
Spark：如何将 Python 与 Scala 或 Java 用户定义函数映射？ https://stackoverflow.com/q/33233737/1298153- 在这种情况下，用 Scala/Java 编写 UADF 不是一个选择（我需要使用特定的 Python 库）
如何在 PySpark 2.1.0 中的事件时间窗口上定义 UDAF https://stackoverflow.com/questions/42747236/how-to-define-udaf-over-event-time-windows-in-pyspark-2-1-0- 类似，但没有答案
引入 PySpark 的矢量化 UDF https://databricks.com/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html- 这可能有效，并且使用“分组”UDF 的“普通最小二乘线性回归”示例看起来很有希望。但是，它需要 Spark 2.3.0（我可以编译它），并且吉拉门票 https://issues.apache.org/jira/browse/SPARK-21190说 UADF 显然是一个非目标（我不清楚 UDAF 和 GUDF(?)s 究竟有何不同）

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark 流式处理：窗口和转换的相关文章

如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d
将 DStream 转换为 JavaDStream

我知道我们有一个选择RDD JavaRDD
使用空/空字段值创建新的数据框

我正在从现有数据帧创建一个新数据帧但需要在这个新 DF 中添加新列下面代码中的 field1 我该怎么做工作示例代码示例将不胜感激 val edwDf omniDataFrame withColumn field1 callUDF v
Pyspark 数据框逐行空列列表

我有一个 Spark 数据框我想创建一个新列其中包含每行中具有 null 的列名称例如原始数据框是 col 1 col 2 col 3 62 45 null 62 49 56 45 null null null null null
Scala：如何获取数据框中的行范围

我有一个DataFrame通过运行创建sqlContext readParquet 文件的一个 The DataFrame由 300 M 行组成我需要使用这些行作为另一个函数的输入但我想以较小的批次进行操作以防止 OOM 错误目前
如何在某些匹配条件下进行LEFT ANTI连接

我有两个表一个是具有一对 ID PC1 和 P2 的核心数据和一些 blob 数据 P3 另一条是前表中PC1的黑名单数据我将第一个表称为 in df 第二个表称为 blacklist df 我想要做的是从 in df 中删除行只要
为什么我必须明确告诉 Spark 要缓存什么？

在 Spark 中每次我们对 RDD 执行任何操作时都会重新计算 RDD 因此如果我们知道 RDD 将被重用我们应该显式地缓存 RDD 比方说 Spark 决定延迟缓存所有 RDD 并使用 LRU 自动将最相关的 RDD 保留在内存
如何将巨大的pandas数据帧保存到hdfs？

我正在使用 pandas 和 Spark 数据框数据帧总是非常大 gt 20 GB 标准 Spark 函数不足以满足这些大小目前我将 pandas 数据框转换为 Spark 数据框如下所示 dataframe spark creat
Python / Pyspark - 计数 NULL、空和 NaN

我想计算列中的 NULL 空和 NaN 值我尝试过这样的 df filter df ID df ID isNull df ID isnan count 但我总是收到此错误消息 TypeError Column object is not
从 aws Glue 脚本调用存储过程

ETL 作业完成后在 AWS Glue 脚本中调用存储过程的最佳方式是什么我正在使用 PySpark 从 S3 获取数据并将其存储在临时表中在这个过程之后需要调用一个存储过程该存储过程将数据从临时表加载到相应的 MDS 表中如果
Spark中RDD转换的结果是什么？

谁能解释一下结果是什么RDD 转换它是新的数据集数据副本还是只是新的指针集用于过滤旧数据块 RDD 转换允许您在 RDD 之间创建依赖关系依赖关系只是产生结果程序的步骤谱系链依赖字符串中的每个 RDD 都有一个计算其数
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
在使用 Phoenix 4.5 的 CDH 5.4 上运行 Spark 作业时未找到 PhoenixOutputFormat

我通过重新编译源代码设法在 Cloudera CDH 5 4 上配置 Phoenix 4 5 sqlline py效果很好但火花有问题 spark submit class my JobRunner master yarn deploy
如何解决此错误：Py4JJavaError：调用 o70.showString 时出错？

目前我正在开发 PySpark 和 DataFrame 我创建了一个数据框 from pyspark sql import import pandas as pd spark SparkSession builder appName Dat
这个错误是什么意思（SimpleHttpConnectionManager 被错误使用）？

我正在尝试从 ElasticSearch 中读取数据到 Spark conf es resource sflow sflow es nodes ES01 es query some query rdd sc newAPIHadoopRDD
Pyspark 应用程序仅部分利用 dataproc 集群资源

我的 pyspark 应用程序在 106 36 MB 数据集 817 270 条记录上运行 UDF 使用常规 python lambda 函数大约需要 100 小时我创建了一个 Google Dataproc 集群其中包含 20 个工
我需要比较两个数据帧以进行类型验证并发送非零值作为输出

我正在比较两个数据帧基本上这些是两个不同数据源的模式一个来自 hive 另一个来自 SAS9 2 我需要验证两个数据源的结构因此我将模式转换为两个数据帧它们是 SAS 架构将采用以下格式 scala gt metadata sho
Spark中DataFrame、Dataset、RDD的区别

我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花你能将其中一种转换为另一种吗首先是DataFrame是从SchemaRDD 是的
Spark错误：无效的日志目录/app/spark/spark-1.6.1-bin-hadoop2.6/work/app-20161018015113-0000/3/

我的 Spark 应用程序因上述错误而失败实际上我的 Spark 程序正在将日志写入该目录 stderr 和 stdout 都被写入所有工作人员我的程序以前运行良好但昨天我将 fodler 更改为指向 SPARK WORKER DIR

随机推荐

如何在 ASP.Net Core Razor 页面中返回带有模型的页面

如何重定向到页面并传递其模型就像我们在 MVC 中所做的那样return View model MyModel 我尝试过的 return RedirectToPage Notify new Model notifierVM 注意我要返回
如何立即关闭 C 程序？

我正在编写 C 代码在其中分析一些数据我已将程序设置为仅处理 100 个数据输入当输入超过 100 个时就会出现分段错误我想创建一种方法以便当输入数量超过 100 时用户将收到警告并且程序将终止我知道如何从主要功能中简单地做
MyGroups 未在 Communicator.UIAutomation 中实现

我正在开发一个浏览器外的 Silverlight 应用程序它提供了一些 MS Office Communicator 2007 控件我正在使用与 SDK 一起安装的文档指出 IMessenger2 界面中有一个 MyGroups 属性
测试 swift 异步函数超时

如何编写一个单元测试来检查异步函数是否不会超时我正在尝试常规XCTestExpectation 但是因为await暂停一切是等不到期待在下面的代码中我正在检查loader perform 执行时间不超过1秒 func testLoa
在 KnockoutJS 中获取可观察的多维数组（对象）

我正在使用 Knockout 构建一个应用程序发现它非常有用虽然我在获取多维数组对象可观察时遇到问题目前我正在使用以下结构 self form ko observableArray ko utils arrayMap initi
/bin/sh: python: 找不到命令

我刚刚安装了 Python3 和 Komodo 我正在尝试运行一个简单的脚本但收到 py 命令未找到的错误我对 Komodo 和 Python 都是新手所以不知道该去哪里寻找我看到另一篇文章也有同样的问题但没有提供有帮助的解决方案
虚拟继承的内部机制

C 示例代码 class A public A int class B public virtual A public B int b A b class C virtual public A public C int c A c clas
在 jQuery Mobile 中的 Ajax 调用上显示页面加载微调器

我正在使用 ajax 填充我的移动网络应用程序中的列表我想做的是让 jQuery 移动加载微调器在执行此调用时出现并在列表填充后消失当前版本的 JQM 使用 mobile showPageLoadingMsg and mobile h
如何使操作栏图标在单击时发生变化

我在 Sherlock ActionBar 中有一组紫色背景的白色图标我想让它们在被点击时变成深紫色我有相同的深紫色图标所以我想让这些可绘制对象显示在按下状态现在我知道如何在整个应用程序主题中执行此操作但这意味着我必须对所有图标
阻止本地网站在 Chrome 上强制使用 HTTPS？

Chrome 已更新为在某些保留的域名上强制使用 HTTPS 不幸的是我的本地计算机之一出现在列表中我的机器名称是 dev Chrome 现在自动重定向 http dev http dev 到 https dev https dev 我在
Java获取本地IP [重复]

这个问题在这里已经有答案了我正在尝试获取本地IP 它应该与 System out println Inet4Address getLocalHost getHostAddress or InetAddress addr InetAddre
jquery map函数对表的使用

我有这张表 table thead tr th UtstyrsID th th Navn th th Utlevert th th Kommentar th tr thead tbody tr td 1 td tr tbody table
Java - 帮助在任意锚点绘制文本的最佳库[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我熟悉如何使用各种 FontMetrics 函数使文本垂直水平居中等但是我正在寻找一个支持在相对
使用组合键中的一列作为外键

我试图看看是否可以使用复合键中的一列作为外键我得到了奇怪的结果 CREATE TABLE TESTPARENT PK1 INT PK2 INT PRIMARY KEY PK1 PK2 Query OK 0 rows affected 0
C# 属性名称缩写

C 属性的名称中怎么可能有 Attribute 例如DataMemberAttribute 但初始化时没有这个后缀例如 DataMember private int i 根据C 语言规范 http msdn microsoft com e
使用 Akka 进行依赖注入

我在我的应用程序中经常使用 Guice 最近我开始学习 akka actor 并想用它重构我的应用程序然而一开始我就想知道我的所有技巧将如何与演员合作我继续在谷歌上搜索结果有点混乱我找到的关于该主题的最新文档是 http leti
python 中的文本语言检测

我正在尝试检测可能由未知数量的语言组成的文本的语言下面的代码给了我不同的语言作为答案注意我减少了评论因为它在发布不允许时给出错误 print detect print detect 的马来西亚 print detect Vi hav
屏幕旋转后不会调用 onSaveInstanceState

我知道有很多关于 onSaveInstanceState 的问题但我无法找到问题的答案我有一个扩展 AppCompatActivity 的活动此活动使用 3 个片段它有一个变量 int currentStep 来跟踪正在显示的片段
从网页中打开查找器/资源管理器中的文件夹？

如果我有文件系统路径我可以在资源管理器在 Windows 上或 Finder 在 OS X 上中打开一个窗口显示该路径指向的文件夹吗跨平台和或无插件答案的 Cookie 点 For 节点 webkit http docs nw
PySpark 流式处理：窗口和转换

我正在尝试从 Spark 流数据源读取数据按事件时间对其进行窗口化然后对窗口化数据运行自定义 Python 函数它使用非标准 Python 库我的数据框看起来像这样 Time Value 2018 01 01 12 23 50 20

PySpark 流式处理：窗口和转换

PySpark 流式处理：窗口和转换 的相关文章

随机推荐

热门标签

PySpark 流式处理：窗口和转换的相关文章