保留 Spark Streaming 输出

2024-01-13

我正在从消息传递应用程序收集数据，我目前正在使用 Flume，它每天发送大约 5000 万条记录

我想用卡夫卡，使用 Spark Streaming 从 Kafka 消费并将其保存到 hadoop 并使用 impala 进行查询

我尝试过的每种方法都遇到问题..

方法 1 - 将 RDD 保存为 parquet，将外部 hive parquet 表指向 parquet 目录

// scala
val ssc =  new StreamingContext(sparkConf, Seconds(bucketsize.toInt))
val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2)
lines.foreachRDD(rdd => {

    // 1 - Create a SchemaRDD object from the rdd and specify the schema
    val SchemaRDD1 = sqlContext.jsonRDD(rdd, schema)

    // 2 - register it as a spark sql table
    SchemaRDD1.registerTempTable("sparktable")

    // 3 - qry sparktable to produce another SchemaRDD object of the data needed 'finalParquet'. and persist this as parquet files
    val finalParquet = sqlContext.sql(sql)
    finalParquet.saveAsParquetFile(dir)

问题在于finalParquet。另存为Parquet文件输出大量文件，从 Kafka 接收的 Dstream 在 1 分钟批量大小下输出超过 200 个文件。它输出许多文件的原因是因为计算是分布式的，如另一篇文章中所解释的那样如何使 saveAsTextFile 不将输出拆分为多个文件？ https://stackoverflow.com/questions/24371259/how-to-make-saveastextfile-not-split-output-into-multiple-file/24378808#24378808

然而，所提出的解决方案对我来说似乎并不是最佳的，例如正如一位用户所说 - 如果您的数据很少，那么只有一个输出文件才是一个好主意。

方法 2 - 使用HiveContext。直接将RDD数据插入到Hive表中

# python
sqlContext = HiveContext(sc)
ssc = StreamingContext(sc, int(batch_interval))
kvs = KafkaUtils.createStream(ssc, zkQuorum, group, {topics: 1})
lines = kvs.map(lambda x: x[1]).persist(StorageLevel.MEMORY_AND_DISK_SER)
lines.foreachRDD(sendRecord)

def sendRecord(rdd):

  sql = "INSERT INTO TABLE table select * from beacon_sparktable"

  # 1 - Apply the schema to the RDD creating a data frame 'beaconDF'
  beaconDF = sqlContext.jsonRDD(rdd,schema)

  # 2- Register the DataFrame as a spark sql table.
  beaconDF.registerTempTable("beacon_sparktable")

  # 3 - insert to hive directly from a qry on the spark sql table
  sqlContext.sql(sql);

这工作正常，它直接插入到镶木地板表中，但由于处理时间超过批处理间隔时间，因此批处理会出现调度延迟。消费者无法跟上正在生产的产品，并且要处理的批次开始排队。

看来写入 hive 很慢。我尝试调整批处理间隔大小，运行更多消费者实例。

总之

考虑到存在多个文件的问题以及写入 hive 的潜在延迟，保存 Spark Streaming 中的大数据的最佳方法是什么？其他人在做什么？

这里已经提出了类似的问题，但他对目录有一个问题，而不是太多文件如何让 Spark Streaming 写入其输出以便 Impala 可以读取它？ https://stackoverflow.com/questions/24204656/how-to-make-spark-streaming-write-its-output-so-that-impala-can-read-it

非常感谢您的帮助

在解决方案#2中，创建的文件数量可以通过每个RDD的分区数量来控制。

看这个例子：

// create a Hive table (assume it's already existing)
sqlContext.sql("CREATE TABLE test (id int, txt string) STORED AS PARQUET")

// create a RDD with 2 records and only 1 partition
val rdd = sc.parallelize(List( List(1, "hello"), List(2, "world") ), 1)

// create a DataFrame from the RDD
val schema = StructType(Seq(
 StructField("id", IntegerType, nullable = false),
 StructField("txt", StringType, nullable = false)
))
val df = sqlContext.createDataFrame(rdd.map( Row(_:_*) ), schema)

// this creates a single file, because the RDD has 1 partition
df.write.mode("append").saveAsTable("test")

现在，我想您可以考虑从 Kafka 提取数据的频率，以及每个 RDD 的分区数量（默认情况下，您的 Kafka 主题的分区，您可以通过重新分区来减少）。

我正在使用 CDH 5.5.1 中的 Spark 1.5，并且使用以下任一方法都得到相同的结果df.write.mode("append").saveAsTable("test")或者你的 SQL 字符串。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

保留 Spark Streaming 输出的相关文章

我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output
连接到 Apache Kafka 多节点集群中的 Zookeeper

我按照以下说明设置了多节点 kafka 集群现在如何连接到zookeeper 是否可以从 JAVA 中的生产者消费者端仅连接到一个 ZooKeeper 或者是否有一种方法可以连接所有 ZooKeeper 节点设置多节点 Apache
使用 kafka java api 的 Avro 序列化器和反序列化器

Kafka Avro 序列化器和反序列化器无法工作我尝试使用 kafka 控制台消费者消费消息我可以看到发布的消息 public class AvroProducer
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
kafka消费者群体正在重新平衡

我正在使用 Kafka 9 和新的 java 消费者我正在循环内进行轮询当代码尝试执行 Consumer commitSycn 时由于组重新平衡我收到 commitfailedexcption 请注意我将 session time
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
Hadoop-reducer 如何获取数据？

据我所知映射器为每个减速器生成 1 个分区减速器如何知道要复制哪个分区假设有 2 个节点运行用于字数统计程序的映射器并且配置了 2 个缩减器如果每个映射节点生成 2 个分区并且两个节点中的分区都可能包含相同的单词作为键那么减速
Kafka不启动空白输出

我正在努力安装 Kafka 和 Zookeeper 我已经运行了 Zookeeper 并且它当前正在运行我将所有内容设置为 https dzone com articles running apache kafka on windows

随机推荐

嵌入存档中的动态链接器依赖信息

动态库很好其中嵌入了信息帮助运行时链接器确定最终可执行文件需要加载哪些其他库它还告诉可执行文件将加载哪些符号然而静态库却是一个令人头疼的问题链接器不会自动链接存档的依赖项当静态链接一个中等复杂或具有深度依赖图的库时这会变得令
在选择不同行时按一个字段中的最小值进行分组

这就是我正在尝试做的事情假设我有这张表 key id id record date other cols 1 18 2011 04 03 x 2 18 2012 05 19 y 3 18 2012 08 09 z 4 19 2009 06
如何让 Chrome 扩展为每个添加的新 Iframe 运行？

我创建了一个 Chrome 扩展程序作为覆盖 SalesForce 控制台页面中的 helpText 气泡的解决方案 helpText 气泡显示文本但无法链接 URL 它看起来像这样该扩展程序采用 helpText 气泡在 Sales
如何使用 R 中 e1071 包的“svm”执行多类分类

我想使用执行多类分类svm的函数e1071包裹但据我从文档中了解到svm 只能进行二元分类插图文档讲述了多类分类的情况为了允许多类分类 libsvm通过拟合所有二元子分类器并通过投票机制找到正确的类使用一对一技术我仍然不明白的是我
对抗锯齿文本进行 OCR

我必须从 PDF 文档中 OCR 表格我编写了简单的 Python opencv 脚本来获取单个单元格之后新的问题又出现了文本已抗锯齿且质量不佳 tesseract 的识别率很低我尝试过使用自适应阈值来预处理图像但结果并没有好多少
比较 Excel 中的两列并排除

I want to compare values in two columns in Excel as depicted in the image below 使用该公式我想将值放入 B 中不存在的 A 的值和 A 中不存在的 B 的值
在 ConfigParser 解析的请求模块上使用 URL 时，InvalidSchema("未找到 {!r}".format(url)) 的 URL

我在配置文件中有一个 URL 我使用 ConfigParser 解析该 URL 以获取请求配置文件 default root url https reqres in api users page 2 FetchFeeds py impor
如何在 Windows shell 中向文件类型添加辅助动词？

Windows shell 编程的基本思想是您可以将给定的文件类型扩展名与 MS 当前调用的 progid 例如 Company Type Ver 相关联 HKCR txt Acme Text 1 HKCR Acme Text 1 这
Javascript 中触摸屏事件的文档

在哪里可以找到 Javascript 中触摸屏事件的文档或参考例如触摸开始我发现这个有用的链接http ross posterous com 2008 08 19 iphone touch events in javascript h
PHP中将单个数字分成一组唯一的随机数

我想从一个预先确定的单个数字开始然后有多个随机数字当它们相加时它们的总数就是我开始的数字例如我有 100 个但想要 10 个随机数将它们加在一起时等于 100 以我有限的知识我写下了这样的内容
Elixir 变量真的是不可变的吗？

在 Dave Thomas 的 Programming Elixir 一书中他指出 Elixir 强制执行不可变数据并接着说道在 Elixir 中一旦变量引用了诸如 1 2 3 之类的列表您就知道它将始终引用相同的值直到您重新绑
如何从字符串转换为 XElement 对象

我有一个像这样的字符串
STL Vector默认使用“new”和“delete”进行内存分配吗？

我正在为应用程序开发一个插件其中内存应该由应用程序分配并跟踪它因此内存句柄应该以缓冲区的形式从主机应用程序获取然后将它们返回给应用程序现在我计划使用 STL Vectors 我想知道它内部使用什么样的内存分配它在内部使用新建
jquery悬停事件无法正常工作

我有一个简单的水平菜单当我将鼠标悬停在每个项目上时子菜单会向下滑动所以基本上它是我们经常看到的典型导航菜单我希望当鼠标悬停时子菜单会在鼠标移出时向下和向上滑动我的问题是如果我在项目中快速移动鼠标就会有多个子菜单保持可见我猜这
RSS 是否跟踪保留或提交的内存？

我正在 java 8 上使用不同的 jvm 选项进行实验以降低 RSS 用于 Rss 跟踪的脚本 ps o rss o vsz o pid pid 用于设置 java 进程的 JVM 参数 XX PrintNMTStatistics XX
Laravel 5 中用于管理或身份验证的 Laravel 中间件

我是 Laravel 的新手不了解 Laravel 限制机制我读过有关中间件的内容但很困惑如何使用它为什么使用它以及它如何工作所以请指导我如何实现它以达到限制目的即对于 auth sa 用户路由确保您在数据库用户表中有角色列或
Sitecore 中子布局的多变量测试

我过去曾尝试过这个概念现在对在我公司的 Sitecore 网站上使用多变量测试感兴趣我认为在很多地方我们绝对可以通过使用 A B 测试来提高销量运行两个完全不同的模板看看哪种布局更适合用户在网站上运行许多不同的子布局表单以查看
PHP 中的重音符号 (`)（不是单引号）代表什么？

在下面的示例中第二行中的重音符号是什么意思 cmd ffmpeg i video deinterlace an ss second t 00 00 01 r 1 y vcodec mjpeg f mjpeg image 2 gt 1 re
将版本放入我的 java 应用程序 - Netbeans

有什么方法可以在 netbeans 中为我的应用程序提供版本号然后在我的代码中访问该版本号类似于我们在 Net 中使用的程序集号在 java 或 netbeans 中是否有类似的东西定义一个Implementation Versio
保留 Spark Streaming 输出

我正在从消息传递应用程序收集数据我目前正在使用 Flume 它每天发送大约 5000 万条记录我想用卡夫卡使用 Spark Streaming 从 Kafka 消费并将其保存到 hadoop 并使用 impala 进行查询我尝试过

保留 Spark Streaming 输出

总之

保留 Spark Streaming 输出 的相关文章

随机推荐

热门标签

保留 Spark Streaming 输出的相关文章