SparkStreaming

如何使用scala从apache Spark中的kafka主题读取json数据

我是新的 Spark 您能否让我知道如何使用 scala 从 apache Spark 中的 kafka 主题读取 json 数据 Thanks 最简单的方法是使用 Spark 附带的 DataFrame 抽象 val sqlContext

scala apachespark ApacheKafka SparkStreaming

SparkContext.getOrCreate() 用途

目的是什么getOrCreate方法来自SparkContext班级我不明白什么时候应该使用这个方法如果我有 2 个 Spark 应用程序运行spark submit 在主要方法中我用以下方法实例化 Spark 上下文SparkCon

apachespark PySpark apachesparksql SparkStreaming

如何从map/filter等执行异步操作（即返回Future）？

我有一个DataSet map需要从外部 REST API 提取数据的操作 REST API 客户端返回一个Future Int 是否有可能拥有DataSet map操作以某种方式等待这个Future异步或者我需要使用来阻止线程Await

scala apachespark apachesparksql SparkStreaming

可以触发流选择特定文件

我的程序连续读取流hadoop文件夹比如 hadoopPath 它从上面的文件夹中选取所有文件我可以只显示该文件夹的特定文件类型吗例如 hadoopPath log 我还有一个与 Spark 和流媒体相关的问题 Spark Strea

Hadoop apachespark SparkStreaming

无法反序列化 ActorRef 以将结果发送到不同的 Actor

我开始使用 Spark Streaming 来处理我收到的实时数据源我的场景是我有一个使用 with ActorHelper 的 Akka actor 接收器然后我让 Spark 作业执行一些映射和转换然后我想将结果发送给另一个 a

serialization apachespark Actor SparkStreaming

Spark流式批量查找数据

我需要从 HDFS 上的文件查找 Spark 流作业中的一些数据该数据由批处理作业每天获取一次有没有设计模式为了这样的任务如何在执行后立即重新加载内存中的数据哈希图每日更新当查找数据时如何连续服务流作业被抓取一种可能的方

scala apachespark SparkStreaming

Spark Streaming数据放入HBase的问题

我是这个领域的初学者所以我无法理解它 HBase 版本 0 98 24 hadoop2 火花版本 2 1 0 以下代码尝试将从 Spark Streming Kafka 生产者接收的数据放入 HBase 中 Kafka输入数据格式是这样的

Java apachespark Hbase SparkStreaming

为什么使用 Spark Direct Stream 从 kafka 接收的元组的第一个成员为 null

当使用KafkaUtils createDirectStream从kafka读取消息时 Tuple2的v1 1成员为null KafkaUtils createDirectStream streamingContext String cla

ApacheKafka SparkStreaming

关于访问 Tuple2 内的字段时发生错误

我正在尝试访问 Tuple2 中的字段但编译器返回错误该软件尝试在 kafka 主题中推送一个案例类然后我想使用 Spark Streaming 恢复它这样我就可以提供机器学习算法并将结果保存在 mongo 实例中 Solved 我

scala tuples ApacheKafka SparkStreaming

如何在Spark 1.6集群上运行用Spark 2.1组装的Spark应用程序？

有人告诉我我可以使用 Spark 的一个版本构建 Spark 应用程序只要我使用sbt assembly为了构建它我可以在任何 Spark 集群上使用 Spark Submit 运行它因此我使用 Spark 2 1 1 构建了简单

scala apachespark ApacheKafka SparkStreaming sbtassembly

可以在 Spark 批处理上创建模型并在 Spark 流中使用它吗？

我可以在 Spark Ba tch 中创建模型并将其用于 Spark Streaming 进行实时处理吗我在 Apache Spark 网站上看到了各种示例其中训练和预测都是基于相同类型的处理线性回归构建的我可以在 Spark B

apachespark machinelearning SparkStreaming

Spark Scala UDP 在侦听端口上接收

中提到的例子http spark apache org docs latest streaming programming guide html http spark apache org docs latest streaming pro

scala Sockets apachespark udp SparkStreaming

根据 Spark 结构化流中的多个条件更新其他列的列值

我想根据多个条件使用另外两列更新一列中的值例如流就像 A B C D a T 10 0 a T 100 0 a L 0 0 a L 1 0 我所拥有的是多个条件例如 B T C gt 20 或 B L C 0 价值 T 20 L an

scala apachesparksql SparkStreaming multipleconditions

基于时间戳值流式传输和处理数据（使用 Kafka 和 Spark Streaming）

我将尝试简化我要解决的问题我有一个员工数据流该数据流正在从 JSON 文件中读取并具有以下架构 StructType StructField timeStamp TimestampType StructField emp id Lon

python apachespark PySpark ApacheKafka SparkStreaming

Spark 流自定义指标

我正在开发一个 Spark Streaming 程序它检索 Kafka 流对流进行非常基本的转换然后将数据插入到数据库如果相关则为 voltdb 我正在尝试测量向数据库插入行的速率我认为metrics http metrics

Java apachespark jmx SparkStreaming codahalemetrics

如何一起使用SparkSession和StreamingContext？

我正在尝试从本地计算机 OSX 上的文件夹流式传输 CSV 文件我将 SparkSession 和 StreamingContext 一起使用如下所示 val sc SparkContext createSparkContext spa

scala apachespark apachesparksql SparkStreaming

将 ROW_NUMBER 列添加到流数据帧

我对 Spark 和 SQL 还很陌生我正在尝试向我的 df 添加一列然后将其保存到 Delta 表该列为每个记录行提供唯一的 id 并在每次更新特定记录时递增它我试图执行以下操作 SELECT etc CONCAT somero

sql apachesparksql sqlorderby SparkStreaming rownumber

从 kafka-Spark-Streaming 读取数据时获取空集

大家好我是 Spark Streaming 的新手我正在尝试读取 xml 文件并将其发送到 kafka 主题这是我的 Kafka 代码它将数据发送到 Kafka console consumer Code package org a

apachespark ApacheKafka SparkStreaming apachesparksql

如何在 Yarn 上配置应用程序驱动程序自动重启

来自 Spark 编程指南要自动从驱动程序故障中恢复用于运行流应用程序的部署基础架构必须监视驱动程序进程并在驱动程序失败时重新启动驱动程序不同的集群管理器有不同的工具来实现这一点火花独立火花独立 Spark应用程序驱动程序可以提

apachespark hadoopyarn SparkStreaming

如何优化 Apache Spark 应用程序中的 shuffle 溢出

我正在运行一个有 2 个工作人员的 Spark 流应用程序应用程序具有连接和并集操作所有批次均已成功完成但注意到 shuffle 溢出指标与输入数据大小或输出数据大小不一致溢出内存超过 20 倍 Please find the sp

apachespark SparkStreaming apachespark14