Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark 结构化流式传输多个 WriteStream 到同一接收器
Two Writestream在 Spark Structured Streaming 2 2 1 中 到同一个数据库接收器的操作不会按顺序发生 请建议如何使它们按顺序执行 val deleteSink ds1 writestream ou
scala
apachespark
slick30
SparkStructuredStreaming
如何解决 DataSet.toJSON 与结构化流不兼容的问题
我想将 Twitter 中的数据写入 Kafka 出于教育目的 我尝试使用结构化流来做到这一点 我创建了一个基于套接字源的 Twitter 源 它运行良好 我按如下方式设置来源 val tweets spark readStream for
scala
apachespark
ApacheKafka
SparkStructuredStreaming
[IllegalStateException]:Spark 结构化流正在终止流查询并出现错误
我创建了一个 Spark 结构化流应用程序 在应用程序中 我从 Kafka 主题中提取数据 为了恢复目的 我使用检查点 我面临的挑战如下 ERROR StreamExecution Query id cf9e0f0a 653a 4246 a
scala
apachespark
ApacheKafka
SparkStructuredStreaming
将 Spark 结构化流与 Confluence 架构注册表集成
我在 Spark 结构化流中使用 Kafka Source 来接收 Confluence 编码的 Avro 记录 我打算使用Confluence SchemaRegistry 但与spark结构化流的集成似乎是不可能的 我已经看到这个问题
如何在pyspark中使用foreach接收器?
我该如何使用foreach在 Python Spark 中 结构化流式传输可在输出上触发操作 query wordCounts writeStream outputMode update foreach func start def fun
apachespark
PySpark
apachesparksql
SparkStructuredStreaming
从 Spark 结构化流读取增量文件时出错
我们在 Spark 2 2 中使用 Spark 结构化流 在某些时候 流崩溃 当它开始时 它尝试从检查点读取并失败 java lang IllegalStateException Error reading delta file XYZ C
apachespark
SparkStructuredStreaming
Spark 2.x 中结构化流连接两个流的解决方法
我有一个配置流 不经常更改 但如果有更新 它将是一条消息 和另一个原始数据点流 据我了解 目前 Spark 不支持加入流数据集或数据帧 有没有好的方法来解决这个问题 是否可以将其中一个流数据集 快照 为静态数据集 可能是配置数据集 因为它的
apachespark
SparkStructuredStreaming
如何为 Spark 结构化流编写 ElasticsearchSink
我正在使用 Spark 结构化流来处理来自 Kafka 队列的大量数据并进行一些复杂的 ML 计算 但我需要将结果写入 Elasticsearch 我尝试使用ForeachWriter但无法得到SparkContext在里面 另一个选择可能
scala
apachespark
elasticsearch
SparkStructuredStreaming
使用 Kafka SASL/PLAIN 身份验证的 Spark 结构化流
有没有办法将 Spark 结构化流作业连接到受 SASL PLAIN 身份验证保护的 Kafka 集群 我在想类似的事情 val df2 spark read format kafka option kafka bootstrap serv
apachespark
ApacheKafka
SparkStructuredStreaming
错误:java.lang.IllegalArgumentException:选项“basePath”必须是目录
基于可用的书籍https github com jaceklaskowski spark structured streaming book blob master spark structured streaming adoc https
apachespark
SparkStructuredStreaming
在 Spark 2.3.0 的结构化流中禁用 _spark_metadata
我的结构化流应用程序正在写入镶木地板 我想摆脱它创建的 spark metadata 文件夹 我使用了下面的属性 看起来不错 conf spark hadoop parquet enable summary metadata false 当
为什么单个结构化查询每批运行多个 SQL 查询?
为什么以下结构化查询会运行多个 SQL 查询 如 Web UI 的 SQL 选项卡中所示 import org apache spark sql streaming OutputMode Trigger import scala concu
apachespark
SparkStructuredStreaming
具有自定义接收器的 Spark 结构化流中的输入行数
我在结构化流 spark 2 2 0 中使用自定义接收器 并注意到 Spark 为输入行数生成了错误的指标 它始终为零 我的流构建 StreamingQuery writeStream session readStream schema R
apachespark
apachesparksql
SparkStreaming
SparkStructuredStreaming
Pyspark - 在结构化流上应用自定义函数
我有 4 列 clienttimestamp sensor id activity incidents 从 kafka 流中 我在窗口中消费数据 预处理和聚合 如果我使用 count 进行 groupby 操作 则该流可以很好地在控制台中写
apachespark
PySpark
Bigdata
SparkStreaming
SparkStructuredStreaming
Spark 结构化流 ForeachWriter 和数据库性能
我已经尝试过像这样实现结构化流 myDataSet map r gt StatementWrapper Transform r writeStream foreach MyWrapper myWriter start awaitTermin
database
scala
apachespark
JDBC
SparkStructuredStreaming
使用Spark结构化流读取Kafka数据总是出现超时问题
这是我使用 Spark Structured Streaming 从 Kafka 读取数据的代码 ss SparkSession is defined before import ss implicits val df ss readStr
apachespark
ApacheKafka
SparkStructuredStreaming
无法在结构化流上评估 ML 模型,因为 RDD 转换和操作是在其他转换内部调用的
这是结构化流的一个众所周知的限制 1 我试图使用自定义接收器来解决它 接下来 modelsMap是一个字符串键的映射org apache spark mllib stat KernelDensity models and streaming
apachespark
apachesparkml
SparkStructuredStreaming
如何在流数据帧上应用滞后函数?
我有一个具有三列 time col1 col2 的流数据帧 我必须在第 2 列上应用滞后函数 我尝试过以下查询 val w org apache spark sql expressions Window oderBy time df sel
如何在 foreachBatch 中使用临时表?
我们正在构建一个流平台 其中批量使用 SQL 至关重要 val query streamingDataSet writeStream option checkpointLocation checkPointLocation foreachB
apachespark
SparkStructuredStreaming
如何在不使用 flatMapsGroupWithState 的情况下使用 Structured Streaming 2.3.0 在 Spark 中进行无状态聚合?
如何在不使用 flatMapsGroupWithState 或 Dstream API 的情况下使用 Structured Streaming 2 3 0 在 Spark 中进行无状态聚合 寻找一种更具声明性的方式 Example sele
apachespark
apachesparksql
SparkStructuredStreaming
«
1
2
3
4
5
»