使用 kafka 进行 Spark 结构化流处理只会导致一批（Pyspark）

2023-12-28

我有以下代码，我想知道为什么它只生成一批：

df = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "IP").option("subscribe", "Topic").option("startingOffsets","earliest").load()
// groupby on slidings windows
query = slidingWindowsDF.writeStream.queryName("bla").outputMode("complete").format("memory").start()

该应用程序使用以下参数启动：

spark.streaming.backpressure.initialRate 5
spark.streaming.backpressure.enabled True

kafka 主题包含大约 1100 万条消息。由于initialRate参数，我预计它至少应该生成两批，但它只生成一批。谁能告诉我为什么 Spark 仅在一批中处理我的代码？

我正在使用 Spark 2.2.1 和 Kafka 1.0。

那是因为spark.streaming.backpressure.initialRate参数仅由旧的 Spark Streaming 使用，而不由 Structured Streaming 使用。

相反，使用maxOffsetsPerTrigger: http://spark.apache.org/docs/latest/structed-streaming-kafka-integration.html http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

顺便说一句，另请参阅这个答案：Spark 结构化流如何处理背压？ https://stackoverflow.com/questions/44871621/how-spark-structured-streaming-handles-backpressure, SSS现在没有完整的背压支持

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 kafka 进行 Spark 结构化流处理只会导致一批（Pyspark）的相关文章

我可以限制kafka-node消费者的消费吗？

这看起来像我的 kafka 节点消费者 var kafka require kafka node var consumer new Consumer client 在某些情况下获取的消息数量超出了我的处理能力有没有办法限制它例如每秒接
使用Spring Cloud Stream Kafka动态更改instanceindex

如同在运行时更改 spring cloud stream 实例索引计数 https stackoverflow com questions 37579939 changing spring cloud stream instance i
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
Kafka 主题删除不起作用

我使用的是 Kafka 0 8 2 版本在开发过程中我想我可能需要删除一个主题所以我所做的是将以下行放入服务器配置文件中并启动两个 kafka 服务器 delete topic enable true 当我需要删除一个主题并运行以下命
kafka消费端Offsets的一致性

我有复制因子为 3 的卡夫卡主题min insync replicas 2 一个向该主题发送 X 条消息的生产者acks all 一段时间后 1 分钟内在所有消息发送到主题后将使用 java kafka 客户端为此主题创建新的消费者使
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
Kafka - 如何同时使用过滤器和过滤器？

我有一个 Kafka 流它从一个主题获取数据并且需要将该信息过滤到两个不同的主题 KStream
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助

随机推荐

Python：使用 setproctitle 更改进程名称

我有一个 python 脚本它启动许多 C 程序每个程序都会传递一个命令行参数如下所示 process path test process name test num process 10 for p in range 1 num p
Sequelize：如何在使用左外连接的连接表上执行 WHERE 条件

我的数据库模型如下员工驾驶一辆或零辆车辆一辆车可以由一名或多名员工驾驶车辆有一个模型类型可以告诉我们它的燃料类型以及其他信息我想要续集为我找到所有不开车的员工或者如果他们开车那么车辆不是柴油车因此其中 VehicleID 为
带有 SharePoint 参数的 VB.Net 命令行（控制台）程序

我想在 VB net 中创建一个允许参数的控制台程序我想要做的是在下面的代码中添加参数以便可以从运行菜单创建 Web 部件页面例如C MyProgram exe Design 这将创建 Design Webpart 页面我尝试在
删除图中的文本

我正在使用绘图功能sizetree from library plotrix 版本 3 8 1 这个函数有一个showcount允许括号中的一些计数显示在绘图上的参数见下图但我想知道为什么当我使用showcount FALSE 它们周围
Python 游戏网络

我目前在寻找网络游戏编程资源时遇到困难特别是Python 我不知道任何其他语言我在 Python 中发现了很多关于通用网络的东西但我不确定这就是我需要的因为我相信游戏网络还涉及一些其他因素我正在尝试创建一个在不同计算机上玩的 2
Python。如何使用libxml2获取属性值

我使用的是 MINIDOM 但它不提供 xpath 方法我现在尝试使用 libxml2 但在检索属性值时遇到问题我的 xml 摘录如下
jersey 2.3.1 和 spring 集成兼容性问题

我正在尝试创建将使用球衣和弹簧的宁静服务项目设置我最初下载了 jersey1 8 依赖的 jar 我还得到了 jersey spring 1 8 并且我使用 com sun jersey spi spring container serv
如何使用一对 FrameLabels 制作绘图网格？

创建行列网格图整个网格具有单个 FrameLabel 的最简单方法是什么我需要类似的东西 p ListPlot RandomInteger 10 5 Joined gt True Axes gt False Frame gt Tru
Google 地图 API 3 搜索框

我不知道如何在我的谷歌地图中实现搜索框我有它用户可以从表单中选择一些内容然后在地图上加载标记现在我想添加他们可以使用谷歌搜索框输入城市和州的位置例如在maps google com上这可以通过 API v 3 来完成吗 Goog
Eclipse：选择不包含任何可以在服务器上运行的资源

我无法将 Maven Java Web 应用程序项目运行到 Eclipse IDE 中配置的 Tomcat 最初我可以右键单击该项目并在 tomcat 服务器上运行它但自从我将项目共享到存储库后我无法执行此操作我从存储库中断开了项目
确定 JS AudioContext.analysisrNode 中的频率

背景我的目标是创建一个基于 JavaScript 的 Web 应用程序来分析和显示音频源包括页内源中的频率信息
当理论规定使用已检查异常时，我是否应该使用相关的内置未检查异常？

SO 上有很多关于检查与非检查异常主题的帖子这个答案 https stackoverflow com a 19061110 2520359可能是最全面信息最丰富的然而我仍然对遵循那里提出的逻辑感到矛盾这是有原因的我正在围绕一
我应该在我的应用程序中包含命令行模式吗？

出于学习目的我正在 C 和 winforms 中开发一个类生成应用程序我认为包含允许在脚本中使用应用程序的命令行模式可能会很好在我的应用程序中包含命令行模式是一个很好的做法吗最好有两个不同的程序一个带有 GUI 一个用于命令行实
如何使 Flask/Jinja2 加载可执行 zip 存档中的捆绑模板？

我已将 Flask Web 应用程序打包成可执行的 Python 压缩存档 zipapp https docs python org 3 6 library zipapp html 我在加载模板时遇到问题 Flask Jinja2 无法找到
如果 ASP.NET 破坏了 DIV 的 ID，如何从 javascript 访问该 DIV？

我有一个包含 div 元素的网页在页面上有 javascript 来引用 div document getElementById divId 在另一位开发人员重新设计该页面以使用 ASP 母版页之前该方法一直运行良好 Now docu
流复制和逻辑复制的区别

有人能告诉我更多关于 PostgreSQL 中物理复制和逻辑复制之间的区别吗 TL DR 逻辑复制发送逐行更改物理复制发送磁盘块更改逻辑复制对于某些任务更好而物理复制对于其他任务更好请注意在 PostgreSQL 12 更新时的当
Rails 购物车 - 未添加到当前订单

这里是 Rails 菜鸟我正在构建一个基本的购物车它之前运行良好在不更改任何代码的情况下我 git reset hard 到我以前的提交它正在工作它就崩溃了这是细分 Github 仓库 https github com chr
编译引用的dll

使用VS2005和VB NET 我有一个项目它是我创建的数据存储的 API 编译时创建api dll 我在同一解决方案中有第二个项目它有一个对 API 项目的项目引用编译时将创建wrapper dll 这基本上是特定于应用程序的 AP
显示对象而不是字符串

在这里我附上了我的问题的快照和代码它只向我显示作为对象的内容但完美地显示组名这个问题的快照在下面的链接中给出只需浏览这张图片 http imageupload org d 4DA941521 快照 gt 我想要特定组名称的子数据
使用 kafka 进行 Spark 结构化流处理只会导致一批（Pyspark）

我有以下代码我想知道为什么它只生成一批 df spark readStream format kafka option kafka bootstrap servers IP option subscribe Topic option st

使用 kafka 进行 Spark 结构化流处理只会导致一批（Pyspark）

使用 kafka 进行 Spark 结构化流处理只会导致一批（Pyspark） 的相关文章

随机推荐

热门标签

使用 kafka 进行 Spark 结构化流处理只会导致一批（Pyspark）的相关文章