Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何使用scala从apache Spark中的kafka主题读取json数据
我是新的 Spark 您能否让我知道如何使用 scala 从 apache Spark 中的 kafka 主题读取 json 数据 Thanks 最简单的方法是使用 Spark 附带的 DataFrame 抽象 val sqlContext
scala
apachespark
ApacheKafka
SparkStreaming
SparkContext.getOrCreate() 用途
目的是什么getOrCreate方法来自SparkContext班级 我不明白什么时候应该使用这个方法 如果我有 2 个 Spark 应用程序运行spark submit 在主要方法中 我用以下方法实例化 Spark 上下文SparkCon
apachespark
PySpark
apachesparksql
SparkStreaming
如何从map/filter等执行异步操作(即返回Future)?
我有一个DataSet map需要从外部 REST API 提取数据的操作 REST API 客户端返回一个Future Int 是否有可能拥有DataSet map操作以某种方式等待这个Future异步 或者我需要使用来阻止线程Await
scala
apachespark
apachesparksql
SparkStreaming
可以触发流选择特定文件
我的程序连续读取流hadoop文件夹 比如 hadoopPath 它从上面的文件夹中选取所有文件 我可以只显示该文件夹的特定文件类型吗 例如 hadoopPath log 我还有一个与 Spark 和流媒体相关的问题 Spark Strea
Hadoop
apachespark
SparkStreaming
无法反序列化 ActorRef 以将结果发送到不同的 Actor
我开始使用 Spark Streaming 来处理我收到的实时数据源 我的场景是 我有一个使用 with ActorHelper 的 Akka actor 接收器 然后我让 Spark 作业执行一些映射和转换 然后我想将结果发送给另一个 a
serialization
apachespark
Actor
SparkStreaming
Spark流式批量查找数据
我需要从 HDFS 上的文件查找 Spark 流作业中的一些数据 该数据由批处理作业每天获取一次 有没有 设计模式 为了这样的任务 如何在执行后立即重新加载内存中的数据 哈希图 每日更新 当查找数据时 如何连续服务流作业被抓取 一种可能的方
scala
apachespark
SparkStreaming
Spark Streaming数据放入HBase的问题
我是这个领域的初学者 所以我无法理解它 HBase 版本 0 98 24 hadoop2 火花版本 2 1 0 以下代码尝试将从 Spark Streming Kafka 生产者接收的数据放入 HBase 中 Kafka输入数据格式是这样的
Java
apachespark
Hbase
SparkStreaming
为什么使用 Spark Direct Stream 从 kafka 接收的元组的第一个成员为 null
当使用KafkaUtils createDirectStream从kafka读取消息时 Tuple2的v1 1成员为null KafkaUtils createDirectStream streamingContext String cla
ApacheKafka
SparkStreaming
关于访问 Tuple2 内的字段时发生错误
我正在尝试访问 Tuple2 中的字段 但编译器返回错误 该软件尝试在 kafka 主题中推送一个案例类 然后我想使用 Spark Streaming 恢复它 这样我就可以提供机器学习算法并将结果保存在 mongo 实例中 Solved 我
scala
tuples
ApacheKafka
SparkStreaming
如何在Spark 1.6集群上运行用Spark 2.1组装的Spark应用程序?
有人告诉我 我可以使用 Spark 的一个版本构建 Spark 应用程序 只要我使用sbt assembly为了构建它 我可以在任何 Spark 集群上使用 Spark Submit 运行它 因此 我使用 Spark 2 1 1 构建了简单
scala
apachespark
ApacheKafka
SparkStreaming
sbtassembly
可以在 Spark 批处理上创建模型并在 Spark 流中使用它吗?
我可以在 Spark Ba tch 中创建模型并将其用于 Spark Streaming 进行实时处理吗 我在 Apache Spark 网站上看到了各种示例 其中训练和预测都是基于相同类型的处理 线性回归 构建的 我可以在 Spark B
apachespark
machinelearning
SparkStreaming
Spark Scala UDP 在侦听端口上接收
中提到的例子http spark apache org docs latest streaming programming guide html http spark apache org docs latest streaming pro
scala
Sockets
apachespark
udp
SparkStreaming
根据 Spark 结构化流中的多个条件更新其他列的列值
我想根据多个条件使用另外两列更新一列中的值 例如 流就像 A B C D a T 10 0 a T 100 0 a L 0 0 a L 1 0 我所拥有的是多个条件 例如 B T C gt 20 或 B L C 0 价值 T 20 L an
scala
apachesparksql
SparkStreaming
multipleconditions
基于时间戳值流式传输和处理数据(使用 Kafka 和 Spark Streaming)
我将尝试简化我要解决的问题 我有一个员工数据流 该数据流正在从 JSON 文件中读取 并具有以下架构 StructType StructField timeStamp TimestampType StructField emp id Lon
python
apachespark
PySpark
ApacheKafka
SparkStreaming
Spark 流自定义指标
我正在开发一个 Spark Streaming 程序 它检索 Kafka 流 对流进行非常基本的转换 然后将数据插入到数据库 如果相关 则为 voltdb 我正在尝试测量向数据库插入行的速率 我认为metrics http metrics
Java
apachespark
jmx
SparkStreaming
codahalemetrics
如何一起使用SparkSession和StreamingContext?
我正在尝试从本地计算机 OSX 上的文件夹流式传输 CSV 文件 我将 SparkSession 和 StreamingContext 一起使用 如下所示 val sc SparkContext createSparkContext spa
scala
apachespark
apachesparksql
SparkStreaming
将 ROW_NUMBER 列添加到流数据帧
我对 Spark 和 SQL 还很陌生 我正在尝试向我的 df 添加一列 然后将其保存到 Delta 表 该列为每个记录 行提供唯一的 id 并在每次更新特定记录时递增它 我试图执行以下操作 SELECT etc CONCAT somero
sql
apachesparksql
sqlorderby
SparkStreaming
rownumber
从 kafka-Spark-Streaming 读取数据时获取空集
大家好 我是 Spark Streaming 的新手 我正在尝试读取 xml 文件并将其发送到 kafka 主题 这是我的 Kafka 代码 它将数据发送到 Kafka console consumer Code package org a
apachespark
ApacheKafka
SparkStreaming
apachesparksql
如何在 Yarn 上配置应用程序驱动程序自动重启
来自 Spark 编程指南 要自动从驱动程序故障中恢复 用于运行流应用程序的部署基础架构必须监视驱动程序进程 并在驱动程序失败时重新启动驱动程序 不同的集群管理器有不同的工具来实现这一点 火花独立 火花独立 Spark应用程序驱动程序可以提
apachespark
hadoopyarn
SparkStreaming
如何优化 Apache Spark 应用程序中的 shuffle 溢出
我正在运行一个有 2 个工作人员的 Spark 流应用程序 应用程序具有连接和并集操作 所有批次均已成功完成 但注意到 shuffle 溢出指标与输入数据大小或输出数据大小不一致 溢出内存超过 20 倍 Please find the sp
apachespark
SparkStreaming
apachespark14
«
1
2
3
4
5
6
...9
»