Spark Streaming以Parquet格式附加到S3，小分区太多

2024-04-12

我正在构建一个使用 Spark Streaming 从 AWS EMR 上的 Kinesis 流接收数据的应用程序。目标之一是将数据持久保存到 S3 (EMRFS) 中，为此我使用 2 分钟的非重叠窗口。

我的做法：

Kinesis Stream -> Spark Streaming，批处理持续时间约为 60 秒，使用 120 秒的非重叠窗口，将流数据保存到 S3 中，如下所示：

val rdd1 = kinesisStream.map( rdd => /* decode the data */)
rdd1.window(Seconds(120), Seconds(120).foreachRDD { rdd =>
        val spark = SparkSession...
        import spark.implicits._
        // convert rdd to df
        val df = rdd.toDF(columnNames: _*)
        df.write.parquet("s3://bucket/20161211.parquet")
}

Here is what s3://bucket/20161211.parquet looks like after a while:

正如您所看到的，有很多碎片化的小分区（这对于读取性能来说是可怕的）...问题是，当我将数据流式传输到这个 S3 parquet 文件时，有没有办法控制小分区的数量？

Thanks

我想做的就是每天做这样的事情：

val df = spark.read.parquet("s3://bucket/20161211.parquet")
df.coalesce(4).write.parquet("s3://bucket/20161211_4parition.parquet")

我将数据帧重新分区为 4 个分区并将它们保存回来......

它有效，我觉得每天这样做并不是一个优雅的解决方案......

这实际上非常接近您想要做的事情，每个分区都会在 Spark 中作为单独的文件写出。然而coalesce有点令人困惑，因为它可以（有效）应用于调用合并的上游。 Scala 文档的警告是：

However, if you're doing a drastic coalesce, e.g. to numPartitions = 1,
this may result in your computation taking place on fewer nodes than
you like (e.g. one node in the case of numPartitions = 1). To avoid this,
you can pass shuffle = true. This will add a shuffle step, but means the
current upstream partitions will be executed in parallel (per whatever
the current partitioning is).

在数据集中，它更容易一些persist and count自默认以来进行广泛评估coalesce函数不需要repartition作为输入的标志（尽管您可以构造一个实例Repartition手动）。

另一种选择是使用第二个定期批处理作业（甚至第二个流作业）来清理/合并结果，但这可能有点复杂，因为它引入了第二个移动部分来跟踪。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

amazons3

Streaming

parquet

Spark Streaming以Parquet格式附加到S3，小分区太多的相关文章

Amazon S3 适合提供视频吗？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我正在开发一个网站其主要功能是播放视频通常是一个接一个地播放视频将 MP4 和 WebM 文件存储在 Amazon S3 上然后使用 HTML
对 Parquet 批量格式使用压缩

从 Apache Flink 1 15 版本开始您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre
最近的 AWS 区域的客户端 IP 地址

Question 我想从客户端设备将一些数据上传到 AWS 但我想上传到最近的 AWS 区域的 S3 存储桶同样我希望能够从最近的区域下载当然我会在每个区域设置一个存储桶我可以使用一个系统它可以获取客户端的 IP 地址然后确定
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
AWS SDK S3 node.js 连接到本地 MinIO 服务器

我有用 Node js 编写的应用程序服务器它将文件上传到 AWS S3 存储为此我正在使用https www npmjs com package aws sdk https www npmjs com package aws sdk当
如何在使用 Active Storage 上传之前调整图像大小（与 AWS 链接）

我尝试将 Active Storage 与 Amazon Web Services 结合使用而不是 Carrierwave 和 Cloudinary 使用 Carrierwave 我有一些功能可以在通过上传器控制器上传之前调整图像大小但
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
亚马逊 AWS CloudFront 声称不存在这样的存储桶

我正在尝试设置 CloudFront 来提供图像但当前无法访问它并返回错误指定的存储桶不存在
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
Java中的媒体播放器库[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在评估用于在 Java 中播放音频视频的库它不需要 100 Java Java 与本机库的绑定
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez

随机推荐

当更改弹出控制器中的选项卡栏时，如何更新详细视图中的 UITableView？

I am creating an iPad app with splitview here is the screen shot In this one I want to update the values in the righthan
有思维导图插件吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Oracle Cast 和 MULTISET 在 POSTGRES 中可用

我一直在研究从oracle数据库数据库生成xml的查询其中列是一种类型 CREATE OR REPLACE TYPE column AS OBJECT coulmnname VARCHAR2 30 datatype VARCHAR2
Python 中的树形图

我想用 Python 绘制树决策树组织结构图等有哪些库可以帮助我完成这些任务 I develop ETE http etetoolkit org which is a python package intended among oth
当地图存在时，AutoMapper 会抛出 Missing Map

规格 NET 4 5 1 MVC 5 2 2 EF 6 0 AutoMapper 3 2 1 我首先遇到代理对象错误但能够通过执行以下操作解决它 AutoMapper 3 1 1 和 Entity Framework 6 1 代理对象 h
SVG 动画 G 元素

我目前正在学习如何使用 CSS 对 svg 对象进行动画处理我现在知道如何使用以下方法为路径设置动画 keyframes stroke fill 0 fill white 50 fill white stroke dashoffset 0
无法在 OSGi 中解决 LDAP 库的 Maven 依赖关系

我正在尝试导入 import org apache commons pool2 impl GenericObjectPool import org apache commons pool2 impl GenericObjectPoolCon
如何在另一个函数内部调用一个函数？

我只是想知道如何在另一个函数中调用 JavaScript 函数如果我有下面的代码如何在第一个函数中调用第二个函数 function function one alert The function called function one
计算栅格的质心

我有一个列表其中包含有关南美洲许多动物的可能位置的信息例如这是存储信息的类型以及为第一个人绘制时的样子例子 gt s 1 1 class RasterLayer dimensions 418 313 130834 nrow ncol
有没有办法在主页小部件上制作动画？

我想在主页小部件即 AppWidgetProvider 上使用动画我希望使用帧动画技术 http developer android com guide topics graphics 2d graphics html frame
如果用户尚未登录，我如何拒绝他们访问我的 Backbone 应用程序的部分内容？

所以我有一个 Backbone 应用程序网页主页现在如果您登录我的网站我会使用数据库中的用户详细信息创建一个全局对象但是您仍然可以直接点击应用程序中的其中一条路线我应该如何处理未登录的用户并将他们重定向到您必须登录页面
保留 UTF-8 作为默认编码

我尝试将 UTF 8 保留为 Python 中的默认编码 I tried gt gt gt import sys gt gt gt sys getdefaultencoding ascii 我也尝试过 gt gt gt import sys
Microsoft SQL Server 2016，T-SQL：根据各个日期获取数据集的日期范围

我在 SQL Server 2016 中有一个有趣的情况我使用 T SQL 语言我有一个名为 dataset 的数据集最后一列称为 ContinuousDates 将始终具有没有间隙的连续日期值例如 2021 年 1 月 1 日到
寻求 emacs 中的自动完成功能

我正在寻找一个插件来为 emacs 中的 c 开发自动完成弹出窗口我尝试过的是 Cedet Semantics 和自动完成模式 http cx4a org software auto complete index html 只要我已经有几
将 OCaml 转换为 F#：将 OCaml open_box 和 close_box 转换为 F#

我正在将几个基于 OCaml 的模块转换为 F 并遇到了 OCaml 打印格式化函数open box 和 close box http caml inria fr pub docs manual ocaml libref Format ht
Python：将 GIF 帧转换为 PNG

我对 python 很陌生试图用它来将 GIF 的帧分割成 PNG 图像 Using this GIF http www videogamesprites net FinalFantasy1 Party Before Fighter Fr
我如何知道我正在使用哪个 python 实现？

Python 有几种不同的实现 CPython Jython PyPy 等我想以编程方式确定我的代码在哪个实现上运行我怎样才能做到这一点具体来说我正在寻找一个功能例如 get implementation name 可以像这样使用
Android 中的 Google Pay API 集成

我正在尝试探索 Google Pay API 集成我已经阅读了所提供的文件官方文件 https developers google com pay api android overview 并从 GITHUB 下载了示例GitHub 链
使用 DebugActiveProcess 和 WaitForDebugEvent 似乎挂起

我已经使用 DebugActiveProcess 附加一个进程之后我使用了 WaitForDebugEvent 但应用程序似乎陷入了某种无限循环我无法调试附加的进程下面是我的代码 DebugActiveProcess processI
Spark Streaming以Parquet格式附加到S3，小分区太多

我正在构建一个使用 Spark Streaming 从 AWS EMR 上的 Kinesis 流接收数据的应用程序目标之一是将数据持久保存到 S3 EMRFS 中为此我使用 2 分钟的非重叠窗口我的做法 Kinesis Stream

Spark Streaming以Parquet格式附加到S3，小分区太多

Spark Streaming以Parquet格式附加到S3，小分区太多 的相关文章

随机推荐

热门标签

Spark Streaming以Parquet格式附加到S3，小分区太多的相关文章