PySpark 使用临时 AWS 令牌进行 s3 身份验证的问题

2024-02-24

我已经设置了本地 PySpark，但是每次我尝试使用 s3a 协议读取文件 s3 时，它都会返回 403 AccessDenied 错误。我尝试连接的账户仅支持 AWS ShouldRole，它为我提供了临时 Access_key、Secret_key 和 session_token

我使用的是 Spark 2.4.4、Hadoop 2.7.3 和 aws-java-sdk-1.7.4 jar 文件。我知道问题不在于我的安全令牌，因为我可以在 boto3 中使用相同的凭据来查询相同的存储桶。我正在设置 Spark 会话，如下所示：

spark.sparkContext._conf.setAll([
[('fs.s3a.impl', 'org.apache.hadoop.fs.s3a.S3AFileSystem'), 
('fs.s3a.aws.credentials.provider','org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider'),
("fs.s3a.endpoint", "s3-ap-southeast-2.amazonaws.com"),
('fs.s3a.access.key', "..."),
('fs.s3a.secret.key', "..."),
('fs.s3a.session.token', "...")])
])

spark_01 = spark.builder.config(conf=conf).appName('s3connection').getOrCreate()

df = spark_01.read.load('s3a://<some bucket>')

我得到的错误是这样的：

com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 403, AWS Service: Amazon S3, AWS Request ID: ... , AWS Error Code

更新：完整的错误堆栈：

19/10/08 16:37:17 WARN FileStreamSink: Error while looking for metadata directory.
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/readwriter.py", line 166, in load
    return self._df(self._jreader.load(path))
  File "/usr/local/spark-2.4.4-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
  File "/usr/local/spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/utils.py", line 63, in deco
    return f(*a, **kw)
  File "/usr/local/spark-2.4.4-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 328, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o47.load.
: com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 403, AWS Service: Amazon S3, AWS Request ID: DFF18E66D647F534, AWS Error Code: null, AWS Error Message: Forbidden, S3 Extended Request ID: ye5NgB5wRhmHpn37tghQ0EuO9K6vPDE/1+Y6m3Y5sGqxD9iFOktFUjdqzn6hd/aHoakEXmafA9o=
        at com.amazonaws.http.AmazonHttpClient.handleErrorResponse(AmazonHttpClient.java:798)
        at com.amazonaws.http.AmazonHttpClient.executeHelper(AmazonHttpClient.java:421)
        at com.amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:232)
        at com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:3528)
        at com.amazonaws.services.s3.AmazonS3Client.getObjectMetadata(AmazonS3Client.java:976)
        at com.amazonaws.services.s3.AmazonS3Client.getObjectMetadata(AmazonS3Client.java:956)
        at org.apache.hadoop.fs.s3a.S3AFileSystem.getFileStatus(S3AFileSystem.java:892)
        at org.apache.hadoop.fs.s3a.S3AFileSystem.getFileStatus(S3AFileSystem.java:77)
        at org.apache.hadoop.fs.FileSystem.exists(FileSystem.java:1426)
        at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:557)
        at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:545)
        at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
        at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
        at scala.collection.immutable.List.foreach(List.scala:392)
        at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)
        at scala.collection.immutable.List.flatMap(List.scala:355)
        at org.apache.spark.sql.execution.datasources.DataSource.org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary(DataSource.scala:545)
        at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:359)
        at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)
        at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
        at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
        at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
        at py4j.Gateway.invoke(Gateway.java:282)
        at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
        at py4j.commands.CallCommand.execute(CallCommand.java:79)
        at py4j.GatewayConnection.run(GatewayConnection.java:238)
        at java.lang.Thread.run(Thread.java:748)```

为了解决这个问题，我们需要做以下两件事。（我发现你已经在代码中做了第二件事，所以只需要第一件事。）

仅使用 hadoop-aws-2.8.5.jar，而不是使用 aws-java-sdk-1.7.4.jar 和 hadoop-aws-2.7.7.jar。（请参阅《开始》部分https://hadoop.apache.org/docs/current/hadoop-aws/tools/hadoop-aws/index.html https://hadoop.apache.org/docs/current/hadoop-aws/tools/hadoop-aws/index.html)
设置 fs.s3a.aws.credentials.provider 如下。对于你的代码， ('fs.s3a.aws.credentials.provider', 'org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider') 这使您能够使用令牌密钥。通过此设置，您可以在显示或使用系统环境变量（例如 AWS_ACCESS_KEY_ID、AWS_SECRET_ACCESS_KEY 和 AWS_SESSION_TOKEN）时在代码中提供密钥。

作为参考，此设置 ('fs.s3a.aws.credentials.provider', 'com.amazonaws.auth.DefaultAWSCredentialsProviderChain') 也可用于从 ~/.aws/credentials 加载凭证密钥，而无需在源代码中进行设置。（看，http://wrschneider.github.io/2019/02/02/spark-credentials-file.html http://wrschneider.github.io/2019/02/02/spark-credentials-file.html)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark 使用临时 AWS 令牌进行 s3 身份验证的问题的相关文章

Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
从 EC2 实例 ID 创建 AMI 时，command.resolveMiddleware 不是 AWS SDK 的函数，想知道为什么？

我当时正在开发 AWS SDK 版本 3 并尝试以编程方式从 EC2 实例创建 AMI 以下是我使用的脚本 Imports TODO Import the ec2 client const EC2Client CreateImageComm
如何使用Python高效地将CSV文件数据插入MYSQL？

我有一个带有 aprox 的 CSV 输入文件 400 万条记录插入已运行超过 2 小时但仍未完成数据库仍然是空的关于如何实际插入值的任何建议使用insert into 并且更快比如将插入物分成块我对 python 还很陌生
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
SQLite 在使用之间不保存数据

我制作了一个包含以下内容的模块 import sqlite3 as sq connection sq connect test db cursor connection cursor cursor execute DROP TABLE IF
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
用于从深层嵌套列表/元组中提取元素的递归函数

我想编写一个从深层嵌套元组和列表中提取元素的函数假设我有这样的东西 l THIS THAT a b c THAT d e f 我想要一个没有这个和那个的简单列表 list a b c d e f 这是我到目前为止所拥有的 def
Pandas：根据其他列值有条件地替换值

我有一个数据框 df 如下所示 environment event time 2017 04 28 13 08 22 NaN add rd 2017 04 28 08 58 40 NaN add rd 2017 05 03 07 59 35
如何使用 python aiohttp 连接到 .onion 网站？

我正在尝试连接到 onion使用 python 的网站我在端口 9050 上运行 Tor 但收到以下错误 Traceback most recent call last File Users jane code test test py
Python3 - 如何将字符串转换为十六进制

我正在尝试将字符串逐个字符转换为十六进制但我无法在Python3中弄清楚它在较旧的 python 版本中我的以下内容有效 test This is a test for c in range 0 len test print 0x s
无法使用 wxPython 打开在 folium 中生成的本地 HTML 文件

我目前正在尝试将 GPS 坐标绘制为地图上的标记并在 wxPython 中显示结果我使用 folium 绘制坐标标记并生成 HTML 文件 import folium fmap folium Map 43 5321 172 6362 z
将 Python 3 与 AWS lambda 结合使用

可以在 lambda 中使用使用 Python3 构建的应用程序而不仅仅是 python2 7 可能会考虑周围的选择 https gun io blog announcing zappa serverless python aws lam
Git 子模块：[电子邮件受保护]：权限被拒绝（公钥）。致命：无法从远程存储库读取

我有一个问题git submodule update init remote 我收到错误权限被拒绝和克隆失败但我将 SSH 密钥添加到了我的 github 存储库中我可以拉推 git 克隆我拥有所有需要的访问权限我使用操作系统
如何看待Python的负数按位运算？

我发现很难思考 Python 和 Python3 的无限精度负数和按位运算它不是 32 位或 64 位这1左边的 s 可以被认为是无穷多个它不是很明确这就是为什么有时很难思考它是如何运作的似乎一种可行的方法是总是让它更多例如
防止脚本目录被添加到Python 3中的sys.path

有没有办法阻止脚本的目录被添加到python3中的sys path 由于导入在 python 中是相对的因此我遇到了导入冲突我正在处理的一个遗留项目有一个名为logger py在与内置冲突的脚本的根目录中logger 我使用的自定义构建
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
AttributeError：模块“pandas”没有属性“read_csv”Python3.5

我已经成功使用pandas read csv很久以来当我尝试读取 csv 文件时突然开始出现错误 df pd read csv file csv encoding utf 8 错误是 AttributeError module pand
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
S3 不返回 Access-Control-Allow-Origin 标头？

我无法强制 S3 在从存储桶返回的所有对象上设置 CORS 标头尽管启用了 CORS 但由于客户端 S3 上传正在工作返回的对象没有 CORS 标头我启用的策略是

随机推荐

加速 Python

这确实是两个问题但它们非常相似为了简单起见我想我应该把它们放在一起 Firstly 给定一个已建立的 python 项目除了简单的代码内优化之外还有哪些不错的方法可以加速它 Secondly 用python从头开始编写程序时有哪
将服务从一项活动传递到另一项活动

如何将服务从一项活动传递到另一项活动我有一个音乐播放器 Activity1 它显示歌曲列表当您单击它时它会启动 Activity1 中的服务我有一个按钮用户可以单击该按钮来打开 Activity2 那么我将服务从 Activity
是否可以将 stickylistviewheader 与 crisbanes pulltorefresh 合并？

我构建了一个应用程序其中需要 pulltorefresh 和 StickylistHeaders 我已经在应用程序中实现了 pulltorefresh 但无法使其与 StickyListHeaders 一起使用是否可以合并这两个库或者
如何避免在回发时从 asp.net 重复输入？

我有一个从模板表中提取数据的下拉列表我有一个添加按钮来插入新模板添加按钮将弹出 jQuery 弹出窗口以插入新值将有一个保存按钮来保存新数据 On Save Click 我输入新数据并关闭弹出窗口问题是这样的当我刷新页面时页面再
将 C++ lambda 转换为 C 函数

我正在编写一些包装代码其中外部库调用 C 函数使用可变参数模板等关键点是外部库需要一个 c 函数这通常没问题因为这是合法的 LibraryFuncType fn params 虽然我可以轻松地手动完成此操作但我想使用以下方法自动
使用 DeviceWatcher 监视 USB 驱动器并检索设备信息？

I m a WinForms开发人员和我已经知道如何使用 WMI 监视连接或断开连接的 USB 但不久前我发现了设备观察者 http msdn microsoft com en us library windows devices enum
将字符串转换为八进制数的最Pythonic方法

我希望使用存储在配置文件中的文件掩码来更改文件的权限由于 os chmod 需要八进制数因此我需要将字符串转换为八进制数例如 000 gt 0000 or 0o000 for you python 3 folks 644 gt 064
Docker 组成和主机名

我有一个包含 2 个名为 web 和 db 的服务容器的撰写文件 version 2 services web image nodejs latest ports 80 db image mysql latest ports 3306
is_null($var) 和 ($var === null) 有什么区别？

这之间有什么区别吗 if is null var do something 和这个 if var null do something 检查变量是否包含 null 时哪种形式更好有什么我应该注意的边缘情况吗我初始化了所有变量因此不存在的
将模块导入 Pyscript

当我们编写 Python 代码时我们通常使用导入的包和模块例如我们在编码时可能会这样写 import numpy import requests from bs4 import BeautifulSoup 当我们尝试将 python
在 git 中，如何仅从更改的行中删除 Windows 行结尾？

有时当我尝试向开源项目贡献代码时该项目尚未格式化并且包含 UNIX 和 Window 行结尾我的智能 IDE 会以某种方式检测每个文件使用哪种类型的结尾如果它检测到 Windows 行结尾那么我的所有更改都将具有 Windows
更改 Sysem.Variants.VarToWideStr 的区域设置格式

我的应用程序上的第三方组件 FastReports 广泛使用 System Variants VarToWideStr 函数这很好只是它忽略了我需要该应用程序使用的区域设置 Example FormatSettings ShortDat
Spark 跨接收器的结构化流一致性

我想在以下情况下更好地理解 Spark 2 2 结构化流的一致性模型一个来源 Kinesis 从此源向 2 个不同接收器进行 2 次查询一个用于存档目的的文件接收器 S3 另一个用于处理数据的接收器数据库或文件尚未决定我想了解跨接
覆盖 django 的模型相关管理器

我如何才能超越关系经理例如 user entry set django db models fields related RelatedManager 但我需要自己的经理我尝试这段代码但这不起作用 class EntryManager
为什么 QObject ::findChildren 返回具有公共基类的子级？

我使用 QObject 作为复合模式的基类假设我有一个父类 File 在一个人为的示例中我向其中添加不同类型的子类 HeaderSection 和 PageSection File HeaderSection 和 PageSection
简单表达式缺少参数类型

遵循播放 websocket 示例 http www playframework com documentation 2 3 x ScalaWebSockets我遇到了一个奇怪的问题文档中的以下示例正在运行 Future successf
弹出并刷新视图控制器

我有三个视图控制器当我到达第三个视图控制器时我使用 poptorootviewcontroller 弹出到我的第一个视图控制器但是当我在第三个视图控制器中使用 popviewcontroller 我想返回到我的第二个视图控制器时它
为什么 PowerShell 无法识别带引号的参数？

当您直接调用脚本在 PowerShell 控制台或 ISE 中或通过另一个 PowerShell 实例调用脚本时为什么 PowerShell 对带引号的参数的处理方式有所不同这是脚本 TestQuotes ps1 param str
scala 中的非最终单例对象有什么意义？

我一直以为objectScala 中的声明将被编译为final类因为它们是由有效的匿名类实现的自从final与非最终类相比类更容易被 JVM 优化我认为最终性有好处并且没有成本所以所有object实施将是最终的但我一定错过了一些
PySpark 使用临时 AWS 令牌进行 s3 身份验证的问题

我已经设置了本地 PySpark 但是每次我尝试使用 s3a 协议读取文件 s3 时它都会返回 403 AccessDenied 错误我尝试连接的账户仅支持 AWS ShouldRole 它为我提供了临时 Access key Secr

PySpark 使用临时 AWS 令牌进行 s3 身份验证的问题

PySpark 使用临时 AWS 令牌进行 s3 身份验证的问题 的相关文章

随机推荐

热门标签

PySpark 使用临时 AWS 令牌进行 s3 身份验证的问题的相关文章