如何读取一次流数据集并输出到多个接收器？

2024-05-13

我有 Spark 结构化流作业，它从 S3 读取数据，转换数据，然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器。

目前，我正在做readStream一次然后writeStream.format("").start()两次。这样做时，Spark 似乎从 S3 源读取数据两次，每个接收器读取一次。

是否有更有效的方法来写入同一管道中的多个接收器？

目前，我正在执行一次 readStream，然后执行两次 writeStream.format("").start()。

您实际上创建了两个单独的流查询。这load- 部分是描述第一个（也是唯一的）流媒体源。这对执行没有任何作用。

这样做时，Spark 似乎每个接收器从 S3 源读取数据两次。

这是描述 Spark 结构化流查询如何工作的最正确方式。接收器的数量对应于查询的数量，因为一个流式查询可以恰好有一个流式接收器（请参阅流执行 https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/streaming/StreamExecution.scala#L65位于任何流查询后面）。

您还可以检查线程数（使用jconsole或类似），因为结构化流使用一个microBatchThread每个流查询的线程（参见流执行 https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/streaming/StreamExecution.scala#L218).

是否有更有效的方法来写入同一管道中的多个接收器？

It is not在 Spark 结构化流的当前设计中是可能的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStructuredStreaming

如何读取一次流数据集并输出到多个接收器？的相关文章

Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下
Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise
Spark toLocalIterator 和迭代器方法之间的区别

在编写 Spark 程序时我遇到了这个toLocalIterator 方法之前我只使用iterator method 如果有人曾经使用过这种方法请点亮我在使用时遇到foreach and foreachPartitionSpark程序
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
具有定期更新的静态数据集的结构化流

将流媒体与静态数据集合并是结构化流媒体的一个重要功能但在每个批次中数据集都会从数据源刷新由于这些源并不总是那么动态因此在指定的时间段或批次数内缓存静态数据集会提高性能在指定的时间段批次数之后将从源重新加载数据集否则从缓存
Pyspark UDF AttributeError：“NoneType”对象没有属性“_jvm”

我有一个 udf 函数 staticmethod F udf array
一起调用distinct和map会在spark库中抛出NPE

我不确定这是否是一个错误所以如果你这样做 d spark RDD String d distinct map x gt d filter equals x 您将获得 Java NPE 但是如果你做了一个collect之后立马distinc
S3A：失败，而 S3：在 Spark EMR 中工作

我将 EMR 5 5 0 与 Spark 结合使用如果我使用一个简单的文件写入 s3s3 网址写得很好但如果我使用s3a 地址它失败了Service Amazon S3 Status Code 403 Error Code Acces
最大模式长度 fpgrowth apache Spark

我正在尝试使用 Spark Scala 运行关联规则我首先创建一个 FPGrowth 树并将其传递给关联规则方法但是我希望添加最大模式长度参数以限制我想要在左侧和右侧的项目数量我只想要项目之间的一对一关联 val model ne

随机推荐

如何使用 PHP 中的 jQuery/AJAX 调用迭代 JSON 数组？ [复制]

这个问题在这里已经有答案了可能的重复循环Json对象 https stackoverflow com questions 684672 loop through json object 我有一个 PHP 函数 data php 它从外部
使用 AesManaged“填充无效且无法删除”

我正在尝试使用 AesManaged 进行简单的加密解密但在尝试关闭解密流时不断出现异常这里的字符串被正确加密和解密然后在 Console WriteLine 打印正确的字符串后我收到 CryptographicExceptio
在 Fedora 上安装 SDL

我安装了 FEDORA 和 SDL 并希望在编译时用 C 语言对图形进行编程我收到了很多对 SDL MapRGB SDL Init 等未定义的引用我搜索了文件系统 SDL dll 丢失如何解决这个问题呢 Linux不使用 dll文件来
拆分具有多行文本和单行文本的行

我试图弄清楚如何拆分数据行其中行中的 B C D 列包含多行而其他列不包含多行我已经弄清楚如何拆分多行单元格如果我将这些列复制到新工作表中手动插入行然后运行下面的宏仅适用于 A 列但我在编码时迷失了休息 Here s wha
Bootstrap shown.bs.tab 事件不起作用

我正在使用灵活的模板 http the8guild com themes html flexy v1 7 stylesPage html 使用引导程序并且我无法让选项卡上的 shown bs tab 事件正常工作我已经成功让它发挥作用J
OSX Swift 在默认浏览器中打开 URL

如何使用 Swift 作为编程语言和 OSX 作为平台在系统默认浏览器中打开 URL 我发现了很多UIApplication like UIApplication sharedApplication openURL NSURL string
可拖动的非模态弹出窗口 Jquery Mobile

我希望在 Jquery mobile 中有一个弹出窗口它不会阻止用户与页面交互并且 data dismissible false 即当页面的另一部分与页面的另一部分交互并保持可见时弹出窗口不会消失我已经尝试过这个 popupNew
从本地计算机连接到 AWS 上的 Neptune

我正在尝试从办公室的本地计算机连接到 AWS 实例中的 Neptune DB 就像从办公室连接到 RDS 一样是否可以从本地计算机连接 Neptune 数据库 Neptune 数据库是否公开可用开发人员有什么方法可以从办公室连接 Nep
使用 SSL 和代理设置的 Rest 客户端获取连接超时

我正在使用带有忽略 ssl 的 Rest 客户端它工作正常但在将来我尝试使用客户端证书进行的生产中将无法工作我有 ca 证书和客户端证书我用它创建了一个客户端但我收到错误 Exception in thread main com
ASP.Net：动态添加到占位符的用户控件无法检索值

我将一些用户控件动态添加到 PlaceHolder 服务器控件中我的用户控件由一些标签和一些文本框控件组成当我提交表单并尝试查看服务器上文本框在每个用户控件内的内容时它们是空的回发完成后文本框将包含我在回发之前输入的数据这告
AES 会话密钥的 RSA 解密失败，并显示“AttributeError：‘bytes’对象没有属性‘n’”

我正在努力在 Python 3 6 上从 PyCryptodome 实现公钥加密当我尝试创建对称加密密钥并加密解密变量时一切正常但是当我引入 RSA 和 PKCS1 OAEP 的那一刻一切就都顺理成章了 session key加密
CMake Xcode生成器创建了一个无法构建的项目

我有一个使用 CMake 构建系统的 C 项目我使用 MacBook Pro 进行开发因此当我使用终端时一切都非常顺利我可以构建我的项目然而今天我发现我可以在使用 CMake 生成器创建相应的项目后使用 Xcode gt cma
打字稿交集类型和函数签名不会引发预期错误

我声明了以下类型 type ExampleA a string type ExampleB b number type ExampleC c boolean type Examples ExampleA ExampleB ExampleC
如何使
我有一个列表用作选项卡列表 div ul class TabControl li a href search Funds Funds 60 a li li a href search Companies Companies 4 a li
jQuery自动完成插件-自定义突出显示功能

我的每个项目的自动完成结果如下所示 h3 Celebrity Sweepstakes h3 p 0 episodes p 但我只想突出显示 H3 内的标题请参阅下面的突出显示功能我不知道如何更改原始正则表达式以仅替换标题内的内容 s
错误“达到 inotify 监视的用户限制”。 ExtReact 构建

我安装了 ExtReact 并附有示例当我跑步时 npm start 我收到错误 ERROR in extjs reactor webpack plugin Error ERR BUILD FAILED ERR com sencha ex
SQL Server 到 er 模型

是否有程序可以将 SQL Server 数据库图表转换为 er 模型或者从 SQL Server 服务器创建数据库的 er 模型在 SQL Server 中 Management Studio 中的每个数据库都有数据库图功能您可以
将两个 Int 值相除以获得 Float 的正确方法是什么？

我想分两份IntHaskell 中的值并获得结果Float 我尝试这样做 foo Int gt Int gt Float foo a b fromRational a b 但 GHC 版本 6 12 1 告诉我无法将预期类型 Intege
无法打开 TypeScript 项目的扩展开发主机

我正在尝试阅读第一个 VS Code 扩展教程但无法打开扩展开发主机按 F5 没有任何反应单击调试侧栏中的开始按钮似乎也没有执行任何操作我已经使用生成了我的项目yo code并选择了 TypeScript 选项我尝试过选择 Jav
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这

如何读取一次流数据集并输出到多个接收器？

如何读取一次流数据集并输出到多个接收器？ 的相关文章

随机推荐

热门标签

如何读取一次流数据集并输出到多个接收器？的相关文章