Spark 结构化流：多个接收器

2023-12-21

我们使用结构化流从 Kafka 进行消费，并将处理后的数据集写入 s3。

我们还想将处理后的数据写入 Kafka，是否可以通过同一个流查询来完成此操作？（火花版本2.1.1）
在日志中，我看到流式查询进度输出，并且我有来自日志的示例持续时间 JSON，有人可以更清楚地说明两者之间的区别吗？addBatch and getBatch?

TriggerExecution - 是处理获取的数据和写入接收器所花费的时间吗？

"durationMs" : {
    "addBatch" : 2263426,
    "getBatch" : 12,
    "getOffset" : 273,
   "queryPlanning" : 13,
    "triggerExecution" : 2264288,
    "walCommit" : 552
},

Yes.

在 Spark 2.1.1 中，您可以使用writeStream.foreach将数据写入 Kafka。这个博客中有一个例子：https://databricks.com/blog/2017/04/04/real-time-end-to-end-integration-with-apache-kafka-in-apache-sparks-structed-streaming.html https://databricks.com/blog/2017/04/04/real-time-end-to-end-integration-with-apache-kafka-in-apache-sparks-structured-streaming.html

或者您可以使用Spark 2.2.0，它添加了Kafka接收器以支持正式写入Kafka。
getBatch测量从源创建 DataFrame 所需的时间。这通常非常快。addBatch测量 DataFrame 在接收器中运行的时间。
triggerExecution测量触发器执行的运行时间，通常几乎与getOffset + getBatch + addBatch.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStructuredStreaming

Spark 结构化流：多个接收器的相关文章

如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能

随机推荐

如何从 Groovy 中的对象字段中提取新列表

在 Groovy 中如何从以下内容中提取新列表 def people new Person name Tom yearOfBirth 1985 new Person name Abigail yearOfBirth 1987 new Pe
为什么不能用两层列表初始化器来初始化 2D std::array？

有人可以帮助我理解为什么我的编译器不能不能推断出这一点吗使用 g 7 3 不起作用 include
如何找到串口蓝牙设备的UUID？

我想从串口蓝牙设备接收数据到Android手机但我不知道该设备的 UUID 如何找到该设备的 UUID 扩展 pwc 关于 UUID 为 0x1101 的说法据我所知这是 UUID 的 16 位版本我无法弄清楚如何使用 16 位 U
如何从 onDataChange 方法传递数据？ [复制]

这个问题在这里已经有答案了我设置了一个布尔值来检查应用程序中是否存在重复的用户名我希望布尔值根据 ValueEventListener 中 onDataChange 的结果返回数据这是我所拥有的 private boolean isU
如何从父网格和子网格获取复选框元素的引用

我有这样的要求比如我需要找到父网格行复选框如果选中父网格行复选框那么我需要将父网格行复选框的所有子网格复选框设置为 true 为此我已经这样做了
Pod 未找到：在 64 个 gem 中找不到“cocoapods”（>= 0）（Gem::LoadError）

安装 cocoapods 后sudo gem install cocoapods 尝试运行pod setup返回此错误 Could not find cocoapods gt 0 among 64 total gem s Gem LoadE
如何发送 Bundle 中的自定义对象的 ArrayList

我有一个应用程序它使用服务每 x 秒创建一个自定义对象 MyObject 的 ArrayList 然后我希望我的 Activity 获得这个 ArrayList 我目前计划让服务在每次完成数据查询时向活动处理程序发送一条消息我希望发送给
Spring Batch 中的 NonTransientFlatFileException

我试图读取一个包含 100 条记录的 CSV 文件并一次性处理一批 10 条记录一切工作正常但处理完所有记录后我得到 org springframework batch item file NonTransientFlatFileE
Angular ng build --target=product 给出错误

我使用 Angular CLI 创建了一个新的 Angular 项目我使用的版本是 Angular Cli 1 0 2 角度 4 0 0 我在其中添加了很多代码但是现在当我使用下面的命令构建我的项目时我收到了一堆错误 ng buil
c 定义多行宏？

define DEBUG BREAK a if a asm int 3 我已经按照上面定义了一个宏并尝试使用它 include test define h int main DEBUG BREAK 1 1 return 0 但该示例无法编
登录 Clojure

对于Java开发我使用Slf4j和Logback Logger logger LoggerFactory getLogger HelloWorld class logger debug Hello world 如何在 Clojure 程序
使用 GDI+ 旋转图像而不剪裁其边缘的最快方法是什么？

有一些非常漫长且饥饿的算法可以做到这一点但到目前为止我还没有想出或发现任何特别快的算法最快的方法是使用不安全调用直接操作图像内存LockBits 听起来很可怕但其实很简单如果您搜索 LockBits 您会发现大量示例例如here
DevPay和Mfa是互斥的授权方式

我尝试使用以下命令通过 AWS cli 将 MFA 删除添加到我的 S3 存储桶 aws s3api put bucket versioning bucket
2D 软体：凝胶状和可塑性？

我正在使用 Matter js 物理学来尝试创建软体我能够创建这样的身体但我不确定这是否是我想要的软体确实这个物体并不完全是刚性的并且在碰撞和被拖动时具有弹性的感觉我一直在寻找与凝胶有相似之处的身体这张图片可能在视觉上有助于
Pandas 分割错误

由于内存不足以下代码行未成功执行 import pandas as pd import datetime as dt u cols remote host dummy1 dummy2 date timezone get status by
PDO 错误：一般错误：2031 [重复]

这个问题在这里已经有答案了当我执行代码时出现此错误我知道这已经在这里讨论过几次了但我无法通过阅读那里提供的解决方案来解决我的问题这是我得到的错误致命错误未捕获异常 PDOException 消息为 SQLSTATE HY000
对于软件开发人员来说，学习如何对微控制器进行编程有多难？

我是一名软件开发人员我使用高级语言进行编程已有几年了我想知道如何迈出硬件编程的第一步不是什么疯狂复杂的东西但也许是一些普通的 CE 设备假设我不需要将 PCB 与各种组件放在一起而只是对微型 cpu 进行编程我要到多低的级别
该算法的复杂度（Big-O）是多少？

我对算法分析相当熟悉并且可以说出我使用的大多数算法的大体但我已经被困了几个小时无法为我编写的这段代码想出 Big O 基本上它是一种生成字符串排列的方法它的工作原理是使字符串中的每个字符成为第一个字符并将其与子字符串减去该字符的
我可以在摘要式身份验证中使用已 MD5 编码的密码吗

我在数据库中有密码的 MD5 哈希值我想将其用于 HTTP AUTH DIGEST 但在阅读文档时摘要哈希看起来包含用户名领域和明文密码的哈希在这种情况下有什么办法可以使用密码的 MD5 哈希吗不如果他们需要的哈希是这样生成的
Spark 结构化流：多个接收器

我们使用结构化流从 Kafka 进行消费并将处理后的数据集写入 s3 我们还想将处理后的数据写入 Kafka 是否可以通过同一个流查询来完成此操作火花版本2 1 1 在日志中我看到流式查询进度输出并且我有来自日志的示例持续时间 JS

Spark 结构化流：多个接收器

Spark 结构化流：多个接收器 的相关文章

随机推荐

热门标签

Spark 结构化流：多个接收器的相关文章