Apache Spark + Parquet 不遵守使用“分区”暂存 S3A 提交器的配置

2024-01-12

我正在使用本地计算机上的 Apache Spark (3.0) 将分区数据（Parquet 文件）写入 AWS S3，而无需在计算机中安装 Hadoop。当我有很多文件要写入大约 50 个分区（partitionBy = date）时，我在写入 S3 时遇到 FileNotFoundException。

然后我又遇到了新的S3A提交者 https://hadoop.apache.org/docs/r3.1.1/hadoop-aws/tools/hadoop-aws/committers.html#Using_the_Directory_and_Partitioned_Staging_Committers，所以我尝试配置“分区”提交者。但当文件格式为“parquet”时，我仍然可以看到 Spark 使用 ParquetOutputCommitter 而不是 PartitionedStagingCommitter。当我有大量数据要写入时，我仍然收到 FileNotFoundException 。

我的配置：

        sparkSession.conf().set("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version", 2);
        sparkSession.conf().set("spark.hadoop.fs.s3a.committer.name", "partitioned");
        sparkSession.conf().set("spark.hadoop.fs.s3a.committer.magic.enabled ", false);
        sparkSession.conf().set("spark.hadoop.fs.s3a.committer.staging.conflict-mode", "append");
        sparkSession.conf().set("spark.hadoop.fs.s3a.committer.staging.unique-filenames", true);
        sparkSession.conf().set("spark.hadoop.fs.s3a.committer.staging.abort.pending.uploads", true);
        sparkSession.conf().set("spark.hadoop.mapreduce.outputcommitter.factory.scheme.s3a", "org.apache.hadoop.fs.s3a.commit.S3ACommitterFactory");
        sparkSession.conf().set("spark.sql.sources.commitProtocolClass", "org.apache.spark.internal.io.cloud.PathOutputCommitProtocol");
        sparkSession.conf().set("spark.sql.parquet.output.committer.class", "org.apache.spark.internal.io.cloud.BindingParquetOutputCommitter");
        sparkSession.conf().set("spark.hadoop.fs.s3a.committer.staging.tmp.path", "tmp/staging");

我做错了什么？有人可以帮忙吗？

Note:我已经在 Spark 中创建了一个 JIRA，但到目前为止没有任何帮助：SPARK-31072 https://issues.apache.org/jira/browse/SPARK-31072

=================================================== ===========

我尝试了（@Rajadayalan）的答案。但它仍然使用 FileOutputFormatter。我尝试将 Spark 版本降级到 2.4.5，但没有成功。

20/04/06 12:44:52 INFO ParquetFileFormat: Using user defined output committer for Parquet: org.apache.spark.internal.io.cloud.BindingParquetOutputCommitter
20/04/06 12:44:52 WARN AbstractS3ACommitterFactory: **Using standard FileOutputCommitter to commit work**. This is slow and potentially unsafe.
20/04/06 12:44:52 INFO FileOutputCommitter: File Output Committer Algorithm version is 2
20/04/06 12:44:52 INFO FileOutputCommitter: FileOutputCommitter skip cleanup _temporary folders under output directory:false, ignore cleanup failures: false
20/04/06 12:44:52 INFO AbstractS3ACommitterFactory: Using Commmitter FileOutputCommitter{PathOutputCommitter{context=TaskAttemptContextImpl{JobContextImpl{jobId=job_20200406124452_0000}; taskId=attempt_20200406124452_0000_m_000000_0, status=''}; org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter@61deb03f}; outputPath=s3a://******/observation, workPath=s3a://******/observation/_temporary/0/_temporary/attempt_20200406124452_0000_m_000000_0, algorithmVersion=2, skipCleanup=false, ignoreCleanupFailures=false} for s3a://********/observation
20/04/06 12:44:53 INFO HashAggregateExec: spark.sql.codegen.aggregate.map.twolevel.enabled is set to true, but current version of codegened fast hashmap does not support this aggregate.
20/04/06 12:44:54 INFO CodeGenerator: Code generated in 81.077046 ms
20/04/06 12:44:54 INFO HashAggregateExec: spark.sql.codegen.aggregate.map.twolevel.enabled is set to true, but current version of codegened fast hashmap does not support this aggregate.
20/04/06 12:44:54 INFO CodeGenerator: Code generated in 31.993775 ms
20/04/06 12:44:54 INFO CodeGenerator: Code generated in 9.967359 ms

注意：我的本地没有安装 Spark。所以给了Spark-hadoop-cloud_2.11作为编译时依赖我的 build.gradle 如下所示：

    compile group: 'org.apache.spark', name: 'spark-hadoop-cloud_2.11', version: '2.4.2.3.1.3.0-79'
    compile group: 'org.apache.spark', name: 'spark-sql_2.11', version: '2.4.5'
    // https://mvnrepository.com/artifact/com.fasterxml.jackson.core/jackson-databind
    compile group: 'com.fasterxml.jackson.core', name: 'jackson-databind', version: '2.10.0'
    // https://mvnrepository.com/artifact/org.apache.parquet/parquet-column
    compile group: 'org.apache.parquet', name: 'parquet-column', version: '1.10.1'
    // https://mvnrepository.com/artifact/org.apache.parquet/parquet-hadoop
    compile group: 'org.apache.parquet', name: 'parquet-hadoop', version: '1.10.1'
    compile group: 'org.apache.parquet', name: 'parquet-avro', version: '1.10.1'
    // https://mvnrepository.com/artifact/org.apache.spark/spark-sketch
    compile group: 'org.apache.spark', name: 'spark-sketch_2.11', version: '2.4.5'
    // https://mvnrepository.com/artifact/org.apache.spark/spark-core
    compile group: 'org.apache.spark', name: 'spark-core_2.11', version: '2.4.5'
    // https://mvnrepository.com/artifact/org.apache.spark/spark-catalyst
    compile group: 'org.apache.spark', name: 'spark-catalyst_2.11', version: '2.4.5'
    // https://mvnrepository.com/artifact/org.apache.spark/spark-tags
    compile group: 'org.apache.spark', name: 'spark-tags_2.11', version: '2.4.5'
    compile group: 'org.apache.spark', name: 'spark-avro_2.11', version: '2.4.5'
    // https://mvnrepository.com/artifact/org.apache.spark/spark-hive
    compile group: 'org.apache.spark', name: 'spark-hive_2.11', version: '2.4.5'
    // https://mvnrepository.com/artifact/org.apache.xbean/xbean-asm6-shaded
    compile group: 'org.apache.xbean', name: 'xbean-asm7-shaded', version: '4.15'
   compile group: 'org.apache.hadoop', name: 'hadoop-common', version: '3.2.1'
//    compile group: 'org.apache.hadoop', name: 'hadoop-s3guard', version: '3.2.1'
    compile group: 'org.apache.hadoop', name: 'hadoop-aws', version: '3.2.1'
    compile group: 'org.apache.hadoop', name: 'hadoop-client', version: '3.2.1'
    compile group: 'com.amazonaws', name: 'aws-java-sdk-bundle', version: '1.11.271'

遇到同样的问题，解决方案来自如何让 AWS 上的本地 Spark 写入 S3 https://stackoverflow.com/questions/58495909/how-to-get-local-spark-on-aws-to-write-to-s3努力加载 PartitionedStagingCommitter。您还必须从解决方案中提到的下载spark-hadoop-cloud jar。

我也使用spark 3.0，这个版本的jar可以工作https://repo.hortonworks.com/content/repositories/releases/org/apache/spark/spark-hadoop-cloud_2.11/2.4.2.3.1.3.0-79/ https://repo.hortonworks.com/content/repositories/releases/org/apache/spark/spark-hadoop-cloud_2.11/2.4.2.3.1.3.0-79/

我的spark-defaults.conf中的设置

spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version 2
spark.hadoop.fs.s3a.committer.name                           partitioned
spark.hadoop.fs.s3a.committer.magic.enabled                  false
spark.hadoop.fs.s3a.commiter.staging.conflict-mode           append
spark.hadoop.fs.s3a.committer.staging.unique-filenames       true
spark.hadoop.fs.s3a.committer.staging.abort.pending.uploads  true
spark.hadoop.mapreduce.outputcommitter.factory.scheme.s3a    
org.apache.hadoop.fs.s3a.commit.S3ACommitterFactory
spark.sql.sources.commitProtocolClass                        
org.apache.spark.internal.io.cloud.PathOutputCommitProtocol
spark.sql.parquet.output.committer.class                     
org.apache.spark.internal.io.cloud.BindingParquetOutputCommitter

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Spark + Parquet 不遵守使用“分区”暂存 S3A 提交器的配置的相关文章

使用 Django 将文件异步上传到 Amazon S3

我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
AWS CLI 从 AWS CLI 获取私有存储桶的下载 S3 URL

我可以将文件上传到private使用以下命令成功S3存储桶 aws s3 cp myfile txt s3 myfolder myfile txt region us east 1 output json 我想发出 AWS CLI 命令来返
Hadoop NoSuchMethodError apache.commons.cli

我在用着hadoop 2 7 2我用 IntelliJ 做了一个 MapReduce 工作在我的工作中我正在使用apache commons cli 1 3 1我把库放在罐子里当我在 Hadoop 集群上使用 MapReduceJob
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
S3 上上传文件的 MIME 类型

如何更改 Amazon S3 上上传文件的 MIME 类型我尝试过http docs amazonwebservices com AWSSDKforPHP latest m Amazon S3 更改内容类型 http docs amazo
将大型高清视频文件上传到 Amazon Web Services S3

最终目标将大型视频文件内容制作者将是专业用户因此他们的一点额外工作并不是一个巨大的负担然而对他们和我来说保持尽可能简单是理想的如果可以使用网络表单来启动那就最好了内容制作者不会有数百个因此可以投入一些额外的时间或精力为
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
AWS S3 JavaScript SDK - 网络错误：网络故障

我正在尝试使用 AWS 在浏览器网页的示例中提供的示例并且我不断收到NetworkingError Network Failure错误这是我正在使用的
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
我的 s3 存储桶如何使用 nginx 在不同文件夹中托管多个网站？

我在 Amazon 上有一个 s3 Cloudfront 解决方案我想在存储桶内的不同文件夹中托管不同的网站并通过以下两种方式之一访问它们子域 gt mywebsite1 mydomain com 或者路径 gt www mydom
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
Amazon S3 EPIPE 错误

UPDATE 让它工作从命令行 http www timkay com aws 向该用户添加完全访问策略权限后现在当我使用 Node 执行此操作时没有错误但我在 s3 文件管理器中看不到这些文件我在使用 Amazon 的 S3 服
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序

随机推荐

使用数字索引重新采样 pandas 系列

假设我有一个 pandas Series 其索引具有数值类型例如 pd Series 10 20 1 1 2 3 我们如何以 0 1 间隔对上述序列进行重新采样看起来 resample 函数只适用于日期时间间隔这就是插值的名称您可以
带有 Docker 执行器 /usr/bin/bash 的 Gitlab-CI：第 90 行：git：找不到命令

我有一个本地 GitLab 服务器和带有 Docker 执行器的 gitlab ci 运行程序我想使用 gitlab ci 构建第一阶段我的 Maven 项目由于我使用 buildnumber maven plugin 我向 git
为什么看似空的文件和字符串会产生 md5sum？

考虑以下 md5sum dev null d41d8cd98f00b204e9800998ecf8427e dev null touch empty md5sum empty d41d8cd98f00b204e9800998ecf8427e
为什么在新的 virtualenv 中导入 numpy 需要 5 秒？

背景你好我们编写的 Python 代码在我们无法控制的服务器上运行我们不太了解代码运行的环境如果我们的代码运行时间超过 3 秒就会被拒绝因此我决定开始使用虚拟环境对我们的代码进行计时以给出最坏情况下的运行时间估计 Quest
Java swing：选择/取消选择 JButton 以模仿脉冲

FE我有一个电子邮件客户端它接收新消息带有传入消息的按钮开始执行某些操作直到用户单击它以查看发生了什么我试图通过选择等待然后取消选择按钮来吸引注意力但这没有任何作用 do button setSelected true Thre
乳胶输出

当我编译乳胶文件时它还会生成 txt bbl aux 文件它们没有用因为我可以删除它们而不会造成任何损害我的问题是这些文件的用途是什么以及如何在编译 tex 文件时选择不生成它们这些文件很有用代表多遍排版过程的输出如果删除它们
Python numpy 数组元素不改变值

所以我的 python 代码中遇到了一个问题我将其归结为假设我们有一个函数u def u y t h float 10 U0 float 1 return U0 h y 和一个数组 a np array 0 2 2 然后执行以下操作 a
使用 Laravel Mix 时如何包含 webpack 插件？

如果我使用 WebPack 和 Laravel Mix 我应该如何包含 webpack 插件我很困惑将插件代码添加到哪个文件中我的以下尝试似乎没有运行我的插件该插件应该压缩 js css 文件但事实并非如此 webpack conf
使用 Sympy 集成到 Python 中

我目前正在使用Sympy帮助我进行数学计算现在我正在尝试执行数值积分但每次运行脚本时都会出现错误这是脚本 from sympy import cst qe 1 60217646 10 19 m0 N 1 25663706 10 6
无论如何，我可以在谷歌合作实验室下载该文件吗？

我正在这个 Codelab 的 Google Colaboratory 中尝试张量流我需要下载 http download tensorflow org example images flower photos tgz http down
PHP 复选框多重删除

我的实现似乎不起作用您能指出可能出现的问题或指出更好的解决方案吗当我选中复选框并单击删除按钮时它似乎没有执行任何操作请帮助我 div class page img class page src images DISCLAIMER p
获取当月数据记录条数

我正在尝试查找数据库中当月结束的车辆记录总数我不知道我应该在里面写什么InvoiceDate本例中的部分 public void MonthlyStatus NetContext context var monthlyStatus fro
Zend Framework，将 URL 的扩展名映射到格式参数？

是否可以将 URL 的扩展名映射到 ZF 中的格式参数我希望默认路由仍然有效包括从 URI 映射参数因此您可以说 http example com controller action param1 value1 param2 valu
何时返回 IOrderedEnumerable？

Should IOrderedEnumerable纯粹用作语义值的返回类型例如当在表示层中消费模型时我们如何知道集合是否需要排序或已经排序如果存储库用一个存储过程包装了一个存储过程该怎么办 ORDER BY条款存储库是否应该返回
不存在类型变量 U 的实例，因此 void 符合 U

我正在努力避免isPresent检查下面的代码但编译器发出错误消息没有类型变量的实例U存在使得void符合U 打电话给printAndThrowException 这是我的代码 values stream filter value gt
您在 ASP.NET MVC 中使用什么视图引擎？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我知道您可以在 ASP NET MVC 中使用几种不同的视图引擎 ASPX 显然 NV速度 Brail NHaml et al 默认的 ASPX
更改“查看购物车”按钮的文本

我正在使用 woocommerce 插件但我遇到了如何更改查看购物车按钮文本的问题希望有人可以帮助解决我的问题这是my site http unlieusurterre fix it buddy clients com the tru
无服务器 python 请求具有长时间超时？

我有几个遵循类似格式的 python 脚本您传入一个日期它要么检查我的 S3 存储桶中文件名中包含该日期的文件并解析它或者运行一个 python 脚本对文件进行一些分析该日期的文件运行时间超过 1 小时我正在寻找一种无服务
PHP MySQL 数据库连接

执行查询和其他数据库操作后是否有必要显式关闭数据库连接不 php 自动执行此操作不过您可以将其称为良好的编程实践来清理也称为关闭连接
Apache Spark + Parquet 不遵守使用“分区”暂存 S3A 提交器的配置

我正在使用本地计算机上的 Apache Spark 3 0 将分区数据 Parquet 文件写入 AWS S3 而无需在计算机中安装 Hadoop 当我有很多文件要写入大约 50 个分区 partitionBy date 时我在写入 S

Apache Spark + Parquet 不遵守使用“分区”暂存 S3A 提交器的配置

Apache Spark + Parquet 不遵守使用“分区”暂存 S3A 提交器的配置 的相关文章

随机推荐

热门标签

Apache Spark + Parquet 不遵守使用“分区”暂存 S3A 提交器的配置的相关文章