Spark 写入 S3 V4 SignatureDoesNotMatch 错误

2024-06-26

我遇到S3SignatureDoesNotMatch尝试使用 Spark 将 Dataframe 写入 S3 时。

症状/尝试过的事情：

代码失败有时但有效有时;
代码可以read从 S3 没有任何问题，并且能够不时写入 S3，这排除了错误的配置设置，例如S3A/enableV4/错误密钥/区域端点 etc.
S3A端点已根据S3文档设置S3端点 http://docs.aws.amazon.com/general/latest/gr/rande.html#s3_region;
已确定AWS_SECRETY_KEY不包含任何建议的非字母数字here https://github.com/aws/aws-cli/issues/602;
使用NTP确保服务器时间同步；
以下是在EC2上测试的m3.xlarge with spark-2.0.2-bin-hadoop2.7在本地模式下运行；
当文件写入本地文件系统时，问题就消失了；
现在的解决方法是使用 s3fs 安装存储桶并写入其中；然而这并不理想，因为 s3fs 经常因为 Spark 施加的压力而死掉；

代码可以归结为：

spark-submit\
    --verbose\
    --conf spark.hadoop.fs.s3n.impl=org.apache.hadoop.fs.s3native.NativeS3FileSystem \
    --conf spark.hadoop.fs.s3.impl=org.apache.hadoop.fs.s3.S3FileSystem \
    --conf spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem\
    --packages org.apache.hadoop:hadoop-aws:2.7.3\
    --driver-java-options '-Dcom.amazonaws.services.s3.enableV4'\
    foobar.py


# foobar.py
sc = SparkContext.getOrCreate()
sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", 'xxx')
sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", 'xxx')
sc._jsc.hadoopConfiguration().set("fs.s3a.endpoint", 's3.dualstack.ap-southeast-2.amazonaws.com')

hc = SparkSession.builder.enableHiveSupport().getOrCreate()
dataframe = hc.read.parquet(in_file_path)

dataframe.write.csv(
    path=out_file_path,
    mode='overwrite',
    compression='gzip',
    sep=',',
    quote='"',
    escape='\\',
    escapeQuotes='true',
)

Spark 溢出以下内容error https://gist.github.com/PaulLiang1/4d01740b1a11ac1a49affcec71cb4b1f.

将 log4j 设置为 verbose，似乎发生了以下情况：

每个个体都会被输出到S3上的stag位置/_temporary/foorbar.part-xxx;
PUT 调用会将分区移动到最终位置；
在几次成功的 PUT 调用之后，所有后续的 PUT 调用都因 403 而失败；
由于 reuqets 是由 aws-java-sdk 制作的，因此不确定在应用程序级别上做什么； -- 以下日志来自另一个具有完全相同错误的事件；

 >> PUT XXX/part-r-00025-ae3d5235-932f-4b7d-ae55-b159d1c1343d.gz.parquet HTTP/1.1
 >> Host: XXX.s3-ap-southeast-2.amazonaws.com
 >> x-amz-content-sha256: e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855
 >> X-Amz-Date: 20161104T005749Z
 >> x-amz-metadata-directive: REPLACE
 >> Connection: close
 >> User-Agent: aws-sdk-java/1.10.11 Linux/3.13.0-100-generic OpenJDK_64-Bit_Server_VM/25.91-b14/1.8.0_91 com.amazonaws.services.s3.transfer.TransferManager/1.10.11
 >> x-amz-server-side-encryption-aws-kms-key-id: 5f88a222-715c-4a46-a64c-9323d2d9418c
 >> x-amz-server-side-encryption: aws:kms
 >> x-amz-copy-source: /XXX/_temporary/0/task_201611040057_0001_m_000025/part-r-00025-ae3d5235-932f-4b7d-ae55-b159d1c1343d.gz.parquet
 >> Accept-Ranges: bytes
 >> Authorization: AWS4-HMAC-SHA256 Credential=AKIAJZCSOJPB5VX2B6NA/20161104/ap-southeast-2/s3/aws4_request, SignedHeaders=accept-ranges;connection;content-length;content-type;etag;host;last-modified;user-agent;x-amz-content-sha256;x-amz-copy-source;x-amz-date;x-amz-metadata-directive;x-amz-server-side-encryption;x-amz-server-side-encryption-aws-kms-key-id, Signature=48e5fe2f9e771dc07a9c98c7fd98972a99b53bfad3b653151f2fcba67cff2f8d
 >> ETag: 31436915380783143f00299ca6c09253
 >> Content-Type: application/octet-stream
 >> Content-Length: 0
DEBUG wire:  << "HTTP/1.1 403 Forbidden[\r][\n]"
DEBUG wire:  << "x-amz-request-id: 849F990DDC1F3684[\r][\n]"
DEBUG wire:  << "x-amz-id-2: 6y16TuQeV7CDrXs5s7eHwhrpa1Ymf5zX3IrSuogAqz9N+UN2XdYGL2FCmveqKM2jpGiaek5rUkM=[\r][\n]"
DEBUG wire:  << "Content-Type: application/xml[\r][\n]"
DEBUG wire:  << "Transfer-Encoding: chunked[\r][\n]"
DEBUG wire:  << "Date: Fri, 04 Nov 2016 00:57:48 GMT[\r][\n]"
DEBUG wire:  << "Server: AmazonS3[\r][\n]"
DEBUG wire:  << "Connection: close[\r][\n]"
DEBUG wire:  << "[\r][\n]"
DEBUG DefaultClientConnection: Receiving response: HTTP/1.1 403 Forbidden
 << HTTP/1.1 403 Forbidden
 << x-amz-request-id: 849F990DDC1F3684
 << x-amz-id-2: 6y16TuQeV7CDrXs5s7eHwhrpa1Ymf5zX3IrSuogAqz9N+UN2XdYGL2FCmveqKM2jpGiaek5rUkM=
 << Content-Type: application/xml
 << Transfer-Encoding: chunked
 << Date: Fri, 04 Nov 2016 00:57:48 GMT
 << Server: AmazonS3
 << Connection: close
DEBUG requestId: x-amzn-RequestId: not available

我遇到了完全相同的问题，并在以下人员的帮助下找到了解决方案本文 https://medium.com/@subhojit20_27731/apache-spark-and-amazon-s3-gotchas-and-best-practices-a767242f3d98 (其他资源 https://de.slideshare.net/SparkSummit/spark-and-object-stores-what-you-need-to-know-spark-summit-east-talk-by-steve-loughran都指向同一个方向）。设置这些配置选项后，写入S3成功：

spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version 2
spark.speculation false

我正在使用 Spark 2.1.1 和 Hadoop 2.7。我的最终 Spark-submit 命令如下所示：

spark-submit
--packages com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.3
--conf spark.hadoop.fs.s3a.endpoint=s3.eu-central-1.amazonaws.com
--conf spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem
--conf spark.executor.extraJavaOptions=-Dcom.amazonaws.services.s3.enableV4=true
--conf spark.driver.extraJavaOptions=-Dcom.amazonaws.services.s3.enableV4=true
--conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
--conf spark.speculation=false
...

此外，我定义了这些环境变量：

AWS_ACCESS_KEY_ID=****
AWS_SECRET_ACCESS_KEY=****

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazonwebservices

apachespark

amazons3

Spark 写入 S3 V4 SignatureDoesNotMatch 错误的相关文章

在 Pandas UDF PySpark 中传递多列

我想计算 PySpark DataFrame 两列之间的 Jaro Winkler 距离 Jaro Winkler 距离可通过所有节点上的 pyjarowinkler 包获得 pyjarowinkler 的工作原理如下 from pyjar
Zeppelin：如何在 zeppelin 中重新启动 SparkContext

我正在使用 zeppelins Spark 解释器的隔离模式在这种模式下它将为 Spark 集群中的每个笔记本启动一项新工作我想在笔记本执行完成后通过 zeppelin 终止该作业为此我做了sc stop这停止了 sparkCont
Spark错误：无效的日志目录/app/spark/spark-1.6.1-bin-hadoop2.6/work/app-20161018015113-0000/3/

我的 Spark 应用程序因上述错误而失败实际上我的 Spark 程序正在将日志写入该目录 stderr 和 stdout 都被写入所有工作人员我的程序以前运行良好但昨天我将 fodler 更改为指向 SPARK WORKER DIR
Instagram 如何使用 Amazon S3？

在将文件上传到 Amazon S3 时我需要深入了解 Instagram 的工程我刚刚开始使用 S3 我认为 Instagram 是一个值得效仿的好模式因为他们每天上传数千张图片我的应用程序有点相似用户上传图片可以删除自己的图片
将 ASP.NET Core 部署到 AWS Elastic Beanstalk，必须包含带有“.runtimeconfig.json”后缀错误的文件

我尝试使用 Bitbucket 管道将 ASP NET Core dotnet 版本 5 0 部署到 AWS Elastic Beanstalk 但部署步骤会导致错误实例部署您的源包有一个 NET Core 应用程序您必须包含带有 r
为什么spark在sql查询末尾附加'WHERE 1=0'

我正在尝试使用 Apache Spark 执行简单的 mysql 查询并创建一个数据框但由于某些原因 Spark 附加 WHERE 1 0 在我想要执行的查询末尾并抛出异常说明 You have an error in your SQL
如何使用 django (python) 和 s3 上传文件？

我正在寻找一种将文件上传到 s3 的方法我正在使用 django 我目前正在使用亚马逊的 python 库进行上传以及以下代码 View def submitpicture request fuser request session lo
是否有“S3范围读取功能”允许从AWS-S3文件读取分配的字节范围？

尝试在 AWS Lamba 中处理大文件并跳过整个文件似乎有点浪费是否有范围读取功能允许仅从 S3 文件读取预定义的字节范围是的这是可能的根据 S3 文档获取对象 http docs aws amazon com Amazon
aws-s3 gem 和 right_aws gem 之间的 Rails Paperclip 冲突。怎么解决？

对于新应用程序我想使用回形针将文件存储到 S3 我已经为另一个应用程序安装了 aws s3 gem 这似乎会导致一些问题因为 Paperclip 应该使用 right aws 但正在尝试使用 aws s3 gem 但我不想从我的系统中删
如何配置AWS ELB以阻止某些IP地址？（已知的垃圾邮件发送者）[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题似乎不是关于主要由程序员使用的特定编程问题软件算法或软件工具 help on topic 如果您认为该问题与主题相关另一个 St
使用 CentOS 在 AWS GPU 实例上运行 OpenGL

我需要使用 CentOS 在 AWS EC2 GPU 实例上执行一些离屏渲染程序然而虽然我发现 Ubuntu 很容易安装但我无法让 CentOS 正常工作目标是在 EC2 GPU 实例上运行一些基本的实用程序测试工具没有屏幕或
Eloquent 使用远程 MySQL DB 花费太长时间

我正在开发一个 Web Laravel 和 iOS 应用程序它们都从我也在使用 Laravel 开发的 REST API 中使用 API 从 AWS RDS 实例托管的 MySQL 数据库进行查询当我在本地主机上设置API和应用程序并
在 Spark 中访问数组列

Spark DataFrame 包含类型为 Array Double 的列当我尝试将其返回到 map 函数时它会抛出 ClassCastException 异常以下 Scala 代码生成异常 case class Dummy x Ar
S3 - 访问控制允许来源标头

有没有人设法添加Access Control Allow Origin到响应头我需要的是这样的 img src http 360assets s3 amazonaws com tours 8b16734d 336c 48c7 95c4 3
enableHiveSupport 在 java Spark 代码中引发错误[重复]

这个问题在这里已经有答案了我有一个非常简单的应用程序尝试使用 Spark 从 src main resources 读取 orc 文件我不断收到此错误无法实例化具有 Hive 支持的 SparkSession 因为找不到 Hive
Kubernetes 在 AWS-EBS 上创建 PersistentVolumeClaim 失败

我使用以下命令设置了一个包含四个 EC2 实例的 Kubernetes 集群kubeadm Kubernetes 集群工作正常但当我尝试创建PersistentVolumeClaim 首先我创建了一个StorageClass使用以下 YA
Django CollectStatic 启动大文件上传时管道损坏

我正在尝试使用collectstatic将静态文件上传到我的S3存储桶但我收到一个700k javascript文件的管道损坏错误这就是错误 Copying Users wedonia work asociados server aso
同步从 AWS lambda.invoke 获取值

我尝试使用以下命令从另一个 Lambda 函数调用 AWS Lambda 函数invoke方法与RequestResponse调用类型并检索从 Lambda 返回的值当我打电话给lambda invoke using await回调似乎仍
禁用 AWS Lambda 环境变量

我目前正在使用 AWS Lambda 运行我无法控制的代码因此我想确保 Lambda 环境是沙盒的并且无法访问敏感数据概述了传递给 Lambda 函数的默认环境变量here http docs aws amazon com lamb
具有显式 setMaster("local") 的 Spark 作业，通过 YARN 传递给 Spark-Submit

如果我有一个 Spark 作业 2 2 0 编译为setMaster local 如果我发送该作业会发生什么spark submit master yarn deploy mode cluster 我尝试了这个看起来该作业确实在 YARN

随机推荐

如果使用 PackageManager 禁用应用程序图标，是否会导致该应用程序的自动更新出现问题？

我有一个应用程序其中使用以下代码隐藏应用程序图标 PackageManager p getApplicationContext getPackageManager p setComponentEnabledSetting getCompo
gcc 的错误？模板类中友元函数的访问控制问题

我有一个模板类并在类中定义了一个友元函数 include
从 jsonp fetch Promise 获取 json

我刚刚开始使用react native 并且我正在以文档中的经典示例作为基础 fetch https facebook github io react native movies json then response gt response
我应该清理 Markdown 吗？

对于我的帖子实体我将 HTML 和 MARKDOWN 存储在数据库中 HTML 是从 MARKDOWN 转换而来 HTML 用于在页面上呈现 MARKDOWN 用于编辑功能使用 WMD 我在存储到数据库之前清理 HTML 问题是我也应
使用 Google Apps 脚本将标题样式应用到单词的所有实例

我在 Google 文档中使用 Google App 脚本如何编写一个函数来查找某个单词的所有实例并对其应用标题样式例如我想要狗的每个实例 Cats Dogs Fish 并将 dogs 样式设置为 Heading 2 如下所示 C
Spring Hibernate 4 支持

我正在使用 Hibernate 4 CR1 我的应用程序之前使用 Spring hibernate 支持版本 3 我还没有找到任何相关信息是否有任何迹象表明 Spring 何时或哪个版本将提供对 Hibernate 4 的支持 UP
创建 FileInputStream 对象时使用 InputStream 而不是 FileInputStream 有什么区别

这可能很愚蠢但我想知道后台操作的区别 InputStream is new FileInputStream filepath FileInputStream is new FileInputStream filepath 上面两行代码有什
GKLocalPlayer 身份验证不起作用，但 isAuthenticated 返回 YES（游戏中心沙盒）

我正在努力将回合制比赛集成到我的游戏中几天前我开始从 GameKit API 收到奇怪的错误指出本地玩家未经过身份验证尽管他已通过身份验证当我启动应用程序时 authenticateHandler被调用显示视图控制器输入密码后
ulimit -r 返回不同的值

我将以下两行添加到系统范围的 etc security limits conf 中 soft rtprio 55 hard rtprio 55 系统重新启动后根据我在计算机上访问用户帐户的方式我会得到两个不同的结果 user clien
如何计算 pandas 系列中到前一个零的距离？

我有以下 pandas 系列以列表形式表示 7 2 0 3 4 2 5 0 3 4 我想定义一个新的系列返回到最后一个零的距离这意味着我想要以下输出 1 2 0 1 2 3 4 0 1 2 如何以最有效的方式在 pandas 中做到这
如何在html5画布中向前和向后移动圆圈中的对象？

我正在 html5 canvas 中开发一个小应用程序我需要使用键盘按键以圆周运动移动对象我可以使用键盘按键移动对象但存在错误该对象不会从同一位置向后或向前移动任何人都可以帮助我完成此操作请检查以下代码任何形式的帮助将非常感激
Rust 中结构的惯用迭代器 + 突变？

我刚刚写完这段代码 Watcher to look for changes in files pub struct Watch lt a gt glob Option
将操作方法名称作为参数传递给 Facelets 组件

我正在调用模板并传递如下参数
在 Google 地图上显示路径时出现问题

我有多个经度和纬度点例如 1 long lat starting point 2 long lat 3 long lat 4 long lat 我的代码如下
更改 Json 中属性的键

这些天我正在尝试制作一个 json 编辑器与树视图一起使用我确实更改了值函数我也可以更改一些键但我无法在对象中设置键我可以设置值 SetValue ref JObject main JToken token JToken newV
如何解决[从不设置cookie的域提供以下静态资源]

我正在为一些我根本不知道的事情而挣扎当我 ping 我的网站时我得到了这个结果 Serve the following static resources from a domain that doesn t set cookies 而且
CodeIgniter form_validation->run() 总是返回 false？

我是新来的CodeIgniter我一直在尝试实现表单提交功能但是每当我按提交时表单页面只会刷新并且数据库不会更新看来 this gt form validation gt run 总是返回 false 但我不知道为什么 The 控
使用 CSS 显示 div 内容后淡出

我正在尝试在单击按钮时显示通知单击按钮实际上会检查电子邮件验证我知道要显示一个包含错误消息内容的 div 但是我想淡出错误消息比如说 5 秒后我想用CSS来实现它以下是我的尝试它只是隐藏了一切 signup response
文件已创建但无法写入

我的计划检查Settings txt 文件如果该文件不存在则创建文本并自动写入其中如果 Settings txt 文件已存在请忽略不要创建或写入现有文件我的问题当文件不存在时 Settings txt 文件会创建但它是空的
Spark 写入 S3 V4 SignatureDoesNotMatch 错误

我遇到S3SignatureDoesNotMatch尝试使用 Spark 将 Dataframe 写入 S3 时症状尝试过的事情代码失败有时但有效有时代码可以read从 S3 没有任何问题并且能够不时写入 S3 这排除了错误的配置

Spark 写入 S3 V4 SignatureDoesNotMatch 错误

Spark 写入 S3 V4 SignatureDoesNotMatch 错误 的相关文章

随机推荐

热门标签

Spark 写入 S3 V4 SignatureDoesNotMatch 错误的相关文章