Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

2024-04-24

最近，我们从“HDFS 上的 EMR”-->“S3 上的 EMR”（启用了一致视图的 EMRFS）迁移，我们意识到 Spark“SaveAsTable”（镶木地板格式）写入 S3 的速度比 HDFS 慢约 4 倍，但我们发现使用 DirectParquetOutputCommitter -[1] w/ Spark 1.6 的解决方法。

S3 缓慢的原因 - 我们必须支付所谓的 Parquet 税 - [2]，其中默认输出提交者写入临时表并稍后重命名，其中 S3 中的重命名操作非常昂贵

此外，我们确实了解使用“DirectParquetOutputCommitter”的风险，即启用推测任务时可能会导致数据损坏。

现在，在 Spark 2.0 中，此类已被弃用，我们想知道我们有哪些选项，以便在升级到 Spark 2.0 时，我们不会承受约 4 倍慢的写入速度。任何想法/建议/建议将不胜感激。

我们可以想到的一种解决方法是 - 保存在 HDFS 上，然后通过 s3DistCp 将其复制到 S3（当我们的 Hive 元数据存储指向 S3 时，如何以合理的方式完成此操作，有什么想法吗？）

看起来 Netflix 已经修复了这个问题 -[3]，知道他们计划何时开源吗？

Thanks.

[1] - https://github.com/apache/spark/blob/21d5ca128bf3afd5c2d4c7fcc56240e28443474f/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/parquet/DirectParquetOutputCommitter.scala https://github.com/apache/spark/blob/21d5ca128bf3afd5c2d4c7fcc56240e28443474f/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/parquet/DirectParquetOutputCommitter.scala

[2] - https://www.appsflyer.com/blog/the-bleeding-edge-spark-parquet-and-s3/ https://www.appsflyer.com/blog/the-bleeding-edge-spark-parquet-and-s3/

[3] - http://www.slideshare.net/AmazonWebServices/bdt303-running-spark-and-presto-on-the-netflix-big-data-platform http://www.slideshare.net/AmazonWebServices/bdt303-running-spark-and-presto-on-the-netflix-big-data-platform

您可以使用：sparkContext.hadoopConfiguration.set("mapreduce.fileoutputcommitter.algorithm.version", "2")

因为您使用的是 EMR，所以只需使用 s3（不需要 s3a）

我们正在使用 Spark 2.0 并将 Parquet 写入 S3 的速度非常快（大约与 HDFS 一样快）

如果您想了解更多信息，请查看此 jira 票证SPARK-10063 https://issues.apache.org/jira/browse/SPARK-10063

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？的相关文章

Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
更新通过 JungleDisk 上传的 Amazon S3 文件的权限

我开始使用 Jungle Disk 将文件上传到与 Cloudfront 发行版相对应的 Amazon S3 存储桶即我可以通过 http URL 访问它并且我使用 Amazon 作为 CDN 我面临的问题是 Jungle Disk 没
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Spark：如何从spark shell运行spark文件

我正在使用CDH 5 2 我能够使用火花外壳运行命令如何运行包含 Spark 命令的文件 file spark 有没有办法在没有 sbt 的情况下在 CDH 5 2 中运行编译 scala 程序在命令行中您可以使用 spark sh
Spark：有没有办法打印出spark-shell和spark的类路径？

我可以在 Spark shell 中成功运行 Spark 作业但是当它打包并通过 Spark submit 运行时我收到 NoSuchMethodError 这向我表明类路径存在某种不匹配有没有办法可以比较两个类路径某种日志记录语句
是否可以使用 S3 进行 Flash 伪流？

我一直在使用 S3 来存储和提供 FLV 和 MP4 视频它效果很好但内容是渐进下载的我想知道是否有可能让所谓的伪流与 S3 一起使用伪流允许观看者在下载完整视频之前在视频中向前搜索并仅将必要的位发送到 Flash 播放器我
如何使用 Spark 执行插入覆盖？

我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据基本上创建一个临时表其中的数
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user
Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
开始使用 Python 进行安全 AWS CloudFront 流式传输

我已经创建了一个 S3 存储桶上传了一个视频并在 CloudFront 中创建了一个流分配用静态 HTML 播放器对其进行了测试它可以工作我已经通过帐户设置创建了密钥对目前我的桌面上有私钥文件这就是我所在的地方我的目标是让我
Scala 和 Spark：Windows 上的 Dataframe.write._

有人设法使用 Spark 写入文件尤其是 CSV 吗数据框 http spark apache org docs latest api scala index html org apache spark sql Dataset在 Win
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
调用 StartQueryExecution 操作时出现错误“请求中包含的安全令牌无效”UnrecognizedClientException

我在使用 athena 凭证在 redash 中设置数据源连接时遇到错误我在 athena 中有有效的访问权限可以运行查询并从 S3 获取日志现在我想将 athena 与 redash 集成所以我收到错误调用 StartQuery
对 Parquet 批量格式使用压缩

从 Apache Flink 1 15 版本开始您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre
更新AWS S3过期时间

我想知道如何延长密钥的有效期我指的不是访问对象的签名 URL 而是密钥本身我将 AWS 设置为存储桶中的所有对象应在 90 天后过期的规则在大多数情况下这就是我希望发生的事情有时我需要将单个密钥的使用寿命最多再延长 90 天事实
S3 存储桶可以生成自己的对象键名称吗？

我正在将 Amazon API Gateway 配置为 S3 存储桶的代理理想情况下我希望客户端能够将文件发布到存储桶让 S3 为其分配一个文件名然后在响应中返回该名称我不想让客户端能够指定文件名这可能吗设置代理的文档根本没有

随机推荐

Paypal：客户端身份验证失败

尝试让我的 paypal REST api 网站上线它在沙箱模式下运行良好并具有经过验证的传输当我将沙箱切换为实时客户端 ID 和密钥时出现错误 error invalid client error description Clie
Azure Functions不生成extensions.json

我有一个具有多种功能的 Azure Functions 项目由服务总线和 Blob 存储触发他们已经构建并部署到 azure Fine 几个月了某物最近发生了这样的事情当您单击该函数时它们不再从我的构建计算机进行部署并在 Azu
FBSDKLog：在 Facebook SDK 初始化之前无法启动 FBSDKGraphRequestConnection

我只是在我的 iOS 应用程序中使用 FBSDKCoreKit 8 1 0 最新使用 Facebook Analytics 此错误消息不断淹没我的日志 FBSDKLog FBSDKGraphRequestConnection cannot
Django 模板上的 Unicode 字符串显示

我正在使用 django v1 5 我将渲染一个名为 foobar 的变量它是一个 json obj 包含 unicode 字符串 def home request import json foo name u 赞我们一下 bar jso
awk 中的并行处理？

awk 逐行处理文件假设每行操作不依赖于其他行有没有办法让 awk 一次并行处理多行是否有其他文本处理工具可以自动利用并行性并更快地处理数据唯一尝试提供 awk 并行实现的 awk 实现是并行 awk http code googl
Python 在计算机睡眠/休眠后冻结

我有一个使用 pythonw 在后台运行的 python 脚本如果我关闭笔记本电脑它就会进入睡眠模式当我打开笔记本电脑时我的程序几乎没有任何功能并在几秒钟后冻结有什么方法可以让我的脚本知道我的计算机是否进入睡眠模式以便它可以处
PyQt 自动调整 qlineedit 字符间距

我有一个 qlineedit 用户在其中输入验证码我希望能够每隔 5 个字符自动间隔这些数字就像激活自动添加破折号的窗口时一样例如 12345 67890 12345 67890 如果位数是固定的最好的选择是使用setInputMa
银光。如何将 InlineUIContainer 内容中的文本与 RichTextBox 中的外部文本对齐

任务使 InlineUIContainer 的文本内容与外部文本内联 InlineUIContainer 内容的标准行为是当底部边缘与外部文本内联时可以使用 RenderTransform 移动 InlineUIContainer 的位
CSS 文本对齐延迟与宽度动画

我正在尝试将文本设置为动画使其在页面加载时从左到右显示这只需简单地设置即可完成 keyframes从 0 过渡max width至 100 然而我的文本对齐设置似乎仅在动画完成后才应用我只想让文本内容本身显示出我想要的位置并假设我
Django ORM和链式select_相关

如何使用 Django ORM 执行此查询它是一个多重联接从一个表链接到另一个表关于 select 相关的 Django 文档 https docs djangoproject com en 2 2 ref models querys
如何在一页上放置多个jssor滑块？

当我尝试在页面上放置多个滑块时只有第一个滑块有效有什么办法可以让它们同时工作吗搜索堆栈溢出后我发现了这个请按以下方式初始化多个实例 var jssor slider1 new JssorSlider slider1 containe
从另一个数据帧中减去一个数据帧，不包括第一列 Pandas

我必须使用相同列的数据框我的任务应该是从 df nap 中减去 df tot 而不触及第一列 A 最简单的解决方案是什么谢谢你 import numpy as np import pandas as pd df tot pd DataF
在仪表板标题中间对齐可变长度的文本

我使用闪亮的仪表板包标题需要有标题文本和徽标标题应位于左侧文本应位于标题的中间中心徽标应位于右侧仪表板侧边栏还有两个过滤器选择输入中间的文本显示用户选择因此文本的长度根据不同的选择而不同我没有 css 背景也不知道如
如何将参数传递给 DLL 初始化（例如，通过 LoadLibrary 加载时）？

如何将参数传递给通过 LoadLibrary 加载的 DLL 的初始化函数有可能吗也就是说无需求助于某种导出函数或共享内存没有直接的方法最简单的可能是通过环境变量它们可以在调用之前轻松设置LoadLibray with sete
NgRx - 状态如何组合和初始化

当我们初始化 Store 时 StoreModule provideStore r1 Reducer1 r2 Reducer2 我们确实将减速器传递到 Store 进行存储但我们实际上从未将初始状态传递给存储除了在减速器函数中定义它 c
有没有办法覆盖动作脚本运算符，特别是我想覆盖等于运算符

是否可以覆盖 equals 运算符即对于可以通过 2 个或更多字段匹配来确定相等性的客户类别如果您的意思是重载作为 equals 的同义词那么您不能因为 ActionScript 不提供运算符重载只需为您的类编写一个 equa
收到 SIGNAL 11 错误

再会我有一个关于使用 SDK 开发 Android 应用程序的问题我们的应用程序在 Android 2 1 API Level 7 下遇到问题至少在 Android 2 1 update1 模拟器和 Motorola Droid X
在 post-command-hook 中，这个用于kill-word的命令已经以某种方式变成了kill-region

In my post command hook回调当我这样做时kill word the this command var is kill region 并不是kill word正如预期的那样我想那是因为kill word uses k
Swift 3.0 将图像写入目录

我有一个简单的ImagePicker供用户选择或拍摄个人资料照片我想保存这个image to the Home Directory方便以后加载问题是未设置图像类型 Save Image PPimagePicked image let i
Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

最近我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移我们意识到 Spark SaveAsTable 镶木地板格式写入 S3 的速度比 HDFS 慢约 4 倍但我们发现使用 DirectPa

Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？ 的相关文章

随机推荐

热门标签

Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？的相关文章