使用 pyspark 读取 KMS 加密 Spark 数据帧并将其写入 S3 存储桶时出现问题

2024-01-20

我正在尝试使用 Pyspark 将 Spark 数据帧写入 AWS S3 存储桶，但出现不支持指定的加密方法的异常。该存储桶具有服务器端加密设置。

我从spark-default.conf运行以下包： Spark.jars.packages com.amazonaws:aws-java-sdk:1.9.5, org.apache.hadoop:hadoop-aws:3.2.0

回顾了这个现有的线程：Spark/Hadoop 不支持 AWS S3 上的 SSE-KMS 加密 https://stackoverflow.com/questions/46168680/doesnt-spark-hadoop-support-sse-kms-encryption-on-aws-s3并且提到上述版本应该支持SSE-KMS加密。

我还包含了 core-site.xml 以获得该属性 “fs.s3a.服务器端加密算法”设置为“SSE-KMS”

但是，我仍然收到错误。请注意，对于没有 SSE-KMS 的存储桶，这可以正常工作。

错误消息：AmazonS3Exception：状态代码：400、AWS 服务：Amazon S3、AWS 错误代码：InvalidArgument、AWS 错误消息：不支持指定的加密方法

Hadoop 3.2.0 绝对支持 SSE-KMS，因此无论问题是什么，都会出现：配置中使用的 SSE-KMS 密钥、您访问它的权限或其他一些怪癖（例如密钥不在同一个文件中）区域作为桶）。

但是：该版本是针对 AWS 1.11.375 构建的mvnrepo hadoop-aws https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/3.2.0。混合 JAR 通常是注定要失败的。这可能是一个因素，也可能不是。

您从远端收到了 400 回复，这意味着某些内容被拒绝了。

PySpark

使用 pyspark 读取 KMS 加密 Spark 数据帧并将其写入 S3 存储桶时出现问题的相关文章

如果我们在更大的表中使用广播会发生什么？

我想知道如果我们广播较大的表并将其加入到较小的表中会发生什么另外如果我们有两个同样大的表在这种情况下使用广播连接会发生什么有几件事需要考虑火花上限 Spark支持最大8GB的广播表如果你的广播对象超过这个数量它就会失败驱动程
如何从 Databricks Notebook 中调用 Cluster API 并启动集群？

目前我们正在使用一堆笔记本来处理 azure databricks 中的数据主要使用 python pyspark 我们想要实现的是确保我们的集群在开始数据处理之前启动预热因此我们正在探索从 databricks 笔记本内访问 C
如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制]

这个问题在这里已经有答案了 Florian 的示例代码 ball column keep the hall column 0 7 14 1 8 15 2 9 16 3 10 17 4 11 18
AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo
如何计算 pyspark dataframe 中的每日基础（时间序列）

所以我有一个数据框我想计算一些数量比如说每天假设我们有 10 列 col1 col2 col3 col4 coln 其中每列都依赖于值col1 col2 col3 col4 等等日期根据id date col1 id col2 co
错误：从列表创建 Spark 数据帧时 TimestampType 无法接受对象

我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
pyspark：将多个数据帧字段传递给 udf

我是 Spark 和 Python 的新手任何帮助表示赞赏我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d

随机推荐

从 Pandas Column 中解压字典

我有一个数据框其中一列作为字典我想将其解压为多列即代码金额是下面原始列格式中的单独列以下代码用于使用 pandas v0 22 现在 0 23 给出索引错误 pd DataFrame from records df col nam
松弛传入的 webhook 总是发布到默认频道，即使我提供了不同的频道

我正在尝试使用传入的 webhook 将消息发送到 slack 通道并且 webhook 是使用默认通道 channel1 创建的但现在我想使用相同的传入 webhook 将消息发送到通道 general 我正在使用以下命令来执行此操作
chrome 和 firefox 之间的 SVG 图案不一致

我有一个覆盖指定为图案的纯色红色的渐变
docker-machine：找不到命令

我最近将 Docker Desktop for Mac 升级到版本 2 2 0 0 现在尝试运行docker machine命令我收到错误 docker machine version docker machine 找不到命令 Docker
以多行而不是一长行显示 JSON 文件的内容

在 Unity 中我使用 JSON 文件保存游戏当我在 Visual Studio 中打开该文件时它会在一行中显示全部内容及其所有变量这是我的 JSON 文件的一小部分 JSON before my copy paste trick
确定 viewDidLoad 中的框架/边界

各位程序员大家好首先对这么长的帖子表示歉意我的问题相当简单但我想确保你知道我在做什么而且我真的不想改变我方法的基本思想以下都是以编程方式完成的没有故事板没有笔尖没有导航控制器我有一个没有自己的视图的 RootViewCo
我应该使用哪个 iPhone“Active SDK”版本？

当我想要构建应用程序时当前截至 2008 年 12 月 iPhone SDK 允许我在 3 个版本之间进行选择 2 0 2 1 2 2 我将忽略下面的 2 1 我的假设 2 2比2 0有更多可用的API函数 2 2 修复了 2 0 以来
如何判断对象引用是否为null？

确定对象引用变量是否是的最佳方法是什么null 是下面这个吗 MyObject myObjVar null if myObjVar null do stuff 是的你是对的如果你想执行任意代码可以使用以下代码片段 MyObject m
scanf("%d%d", &x, &x) 定义明确吗？

下面的代码定义清楚吗 include
以编程方式覆盖高 DPI 感知

Windows 10 Creator s Update Edition 中为最终用户提供了一个新选项最终用户可以在兼容性选项卡上将 EXE 的属性更改为覆盖高 DPI 缩放行为并将其设置为系统增强我测试了它它对于一些经典的 wi
是否可以更改 log4j 中包的日志级别？

目前我有一个库将某些信息记录为错误如果我像这样更改 log4j 设置 log4j logger com company theirpackage foo OFF 这将完全禁用库的日志记录然而我真正想要的是仍然看到这些信息但将其记录在
在javascript中，视频相当于“new Audio( )”

在 Javascript 中您可以像这样访问 HTML 5 音频对象 var audio new Audio nameOfFile mp3 但视频元素的等效语法似乎不起作用我在 Chrome 上 var video new Video
查看对子文件夹进行更改的提交

假设一个存储库名为drivers其中包含子文件夹例如 ath b43 p54 etc 如果没有子树创建新的存储库是否可以查看适用于特定子文件夹的提交例如查看对ath子文件夹您应该能够指定文件夹git log http git s
如何验证下拉列表项是否已被选择

嗯这一定很容易但是我的视图中有一个下拉列表 Model clients DistrictList 是 SelectList 类型我想要做的是确保用户选择某些内容即选择地区其值为未选择所以在控制器中我有 AcceptVerb
如何对多维数组的所有关联值求和？

如何对该关联数组的所有值求和 Array 0 gt Array user1 gt 20 1 gt Array user2 gt 30 3 gt Array user3 gt 10 预期输出 60 我试过 array sum无济于事 lsd
未知：无法打开第 0 行未知中所需的“0ff”（include_path='.:/tmp:/usr/lib/php:/usr/local/lib/php'）

我今天收到以下错误我没有对我的 PHP 程序进行任何更改警告未知无法打开流没有这样的文件或目录第 0 行未知警告未知无法打开流没有这样的文件或目录第 0 行未知致命错误未知打开失败需要 0ff include p
jQuery 对话框 iframe 在 IE 中加载一次，在其他浏览器中加载两次？

我有一个 jQuery 对话框其内容由 iframe 定义在显示对话框之前此 iframe 的内容是不可见的在 IE 中该内容及其关联的 javascript 正在执行因此当显示对话框时很明显 javascript 已经完成了
找到图中强制访问某些边而其他边不强制访问的最短路径

我有一个无向图约有 1000 个节点和 2000 个边一个起始节点和一个结束节点我必须从起始节点遍历到结束节点穿过所有强制边大约10条而不必遍历所有顶点或节点有没有一个简单的解决方案比如对现有的图遍历算法进行一些小的改变我
有没有办法列出 vim 中所有默认的正常、可视和插入模式绑定？

当您使用不带任何参数的 map 命令时它似乎只列出自定义和插件绑定有没有办法查看所有绑定很高兴知道自定义绑定是否会与默认绑定之一冲突或者有合适的在线参考吗您可以通过键入获得所有标准键绑定的列表 help index 这些是除了由
使用 pyspark 读取 KMS 加密 Spark 数据帧并将其写入 S3 存储桶时出现问题

我正在尝试使用 Pyspark 将 Spark 数据帧写入 AWS S3 存储桶但出现不支持指定的加密方法的异常该存储桶具有服务器端加密设置我从spark default conf运行以下包 Spark jars packages c

使用 pyspark 读取 KMS 加密 Spark 数据帧并将其写入 S3 存储桶时出现问题

使用 pyspark 读取 KMS 加密 Spark 数据帧并将其写入 S3 存储桶时出现问题 的相关文章

随机推荐

热门标签

使用 pyspark 读取 KMS 加密 Spark 数据帧并将其写入 S3 存储桶时出现问题的相关文章