Spark 写入 S3 存储选项

2023-12-29

我正在将 Spark 数据帧保存到 S3 存储桶。保存文件的默认存储类型是STANDARD。我需要它是 STANDARD_IA。有什么选择可以实现这一目标。我查看了 Spark 源代码，发现 Spark DataFrameWriter 中没有这样的选项https://github.com/apache/spark/blob/branch-2.1/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala https://github.com/apache/spark/blob/branch-2.1/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala

下面是我用来写入 S3 的代码：

val df = spark.sql(<sql>)
df.coalesce(1).write.mode("overwrite").parquet(<s3path>)

编辑：我现在使用 CopyObjectRequest 更改创建的镶木地板的存储类型：

val copyObjectRequest = new CopyObjectRequest(bucket, key, bucket, key).withStorageClass(<storageClass>)
s3Client.copyObject(copyObjectRequest)

截至 2022 年 7 月，这已在 hadoop 源代码树中实现HADOOP-12020 https://issues.apache.org/jira/browse/HADOOP-12020由 AWS S3 工程师设计。

它仍处于稳定状态，应该会在 2022 年底发布的 hadoop 3.3.x 的下一个功能版本中发布。

任何在发布之前阅读此内容的人：代码是可以自己构建的。
任何在 2023 年以后做好准备的人。升级到hadoop 3.3.5或更高版本

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

amazons3

Spark 写入 S3 存储选项的相关文章

在Spark的客户端模式下，驱动程序需要网络访问远程执行程序？

使用火花时在客户端模式例如yarn client 运行驱动程序的本地计算机是否直接与运行远程执行程序的集群工作节点通信如果是是否意味着机器运行驱动程序需要具有对工作节点的网络访问权限那么master节点向集群请求资源并将wor
如果为 null 则替换为 0，否则在同一列中使用默认值

在SparkR shell 1 5 0中创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2
当包含非 ASCII 字符时，无法使用 lambda S3 事件给出的密钥

我有一个 Python lambda 脚本可以在图像上传到 S3 时缩小图像当上传的文件名包含非 ASCII 字符在我的例子中是希伯来语时我无法获取该对象禁止就好像该文件不存在一样这是我的一些代码 s3 client b
在Python Spark中查看RDD内容？

在 pyspark 中运行一个简单的应用程序 f sc textFile README md wc f flatMap lambda x x split map lambda x x 1 reduceByKey add 我想使用 forea
AWS S3 使用 boto3 预签名 url - 签名不匹配

我想为我的存储桶中的对象创建一个预签名 URL 我使用以下 python 代码 client boto3 client s3 aws access key id os environ AWS ACCESS KEY aws secret ac
如何使用 Spark 执行插入覆盖？

我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据基本上创建一个临时表其中的数
pyspark：将 schemaRDD 保存为 json 文件

我正在寻找一种将数据从 Apache Spark 以 JSON 格式导出到各种其他工具的方法我认为一定有一种非常简单的方法来做到这一点示例我有以下 JSON 文件 jfile json key value a1 key2 value
如何在 Spark 中创建空数据帧

我有一组基于 Avro 的配置单元表我需要从中读取数据由于Spark SQL使用hive serdes从HDFS读取数据因此比直接读取HDFS慢很多因此我使用数据块 Spark Avro jar 从底层 HDFS 目录读取 Avr
Amazon S3 上传错误 SSL 证书问题

我正在尝试在本地主机上测试 Laravel Amazon S3 但不断收到相同的错误 WrappedHttpHandler php 第 192 行中的 S3Exception 执行时出错列表对象上 https s3 us west 2
Amazon S3 无法通过 Cloudfront 上传文件

我想通过 Cloudfront 使用签名 URL 将文件上传到 S3 Cloudfront 行为中允许 HTTP PUT 桶策略 Sid 2 Effect Allow Principal AWS arn aws iam cloudfront
XMLHttpRequest 和 S3、CORS 错误

我将照片托管在 S3 存储桶上我为 S3 存储桶添加了 CORS 配置
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
CORS 与 Amazon S3 和 Cloudfront

我有一个托管在 Heroku 上的 Rails 应用程序它使用 CloudFront 以及托管在 S3 上的资产它完美地显示了资产尽管需要一些努力我的 Cloudfront 设置 Forward Headers Whitelist
调用 StartQueryExecution 操作时出现错误“请求中包含的安全令牌无效”UnrecognizedClientException

我在使用 athena 凭证在 redash 中设置数据源连接时遇到错误我在 athena 中有有效的访问权限可以运行查询并从 S3 获取日志现在我想将 athena 与 redash 集成所以我收到错误调用 StartQuery
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
waitUntilObjectExists() Amazon S3 PHP SDK 方法，它到底是如何工作的？

该函数是否会暂停 php 脚本直到在 s3 服务器上找到该对象我将它放在 foreach 循环中一张一张地上传图像找到对象后我调用一个方法在本地删除图像然后删除本地文件夹如果为空这是正确的处理方式吗谢谢 foreach f
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
从 Flask 中的 S3 返回 PDF

我正在尝试在 Flask 应用程序的浏览器中返回 PDF 我使用 AWS S3 来存储文件并使用 boto3 作为与 S3 交互的 SDK 到目前为止我的代码是 s3 boto3 resource s3 aws access key id

随机推荐

将请求从一个jsp转发到另一个jsp并包含所有请求参数？

我有这种情况用户在浏览器中的jsp表单上输入一些内容并提交在 servlet 中我处理请求并向刚刚继续的客户端显示 jsp page1 按钮现在单击继续我想将此请求转发到另一个 jsp page2 其中所有请求参数都出现在 pa
Parse.com，将用户添加到创建的角色

我有一个云代码它在用户注册时创建两个帐户角色下面是方法 Parse Cloud afterSave account function request var accountName request object get name cre
如何创建并行堆栈并在其上运行协程？

我决定我应该尝试实现协程我认为我应该这样称呼它们以获得乐趣和利润我希望必须使用汇编程序如果我想让它对任何事情都有用的话可能还需要一些 C 语言请记住这是出于教育目的使用已经构建的协程库太容易了而且真的没什么乐趣你们知道s
以编程方式重命名 Access 查询中的表

我有一个包含数百个查询的 access 2003 数据库文件我想根据条件重命名查询中引用的所有表 If tableNameInQuery tableName Then tableNameInQuery newTableName End I
使用类构造函数操作 Java 对象引用

这是一道我无法完成的考试题如何打印下面的java代码false仅由编辑内的代码MyClass构造函数 public class MyClass public MyClass public static void main String
在 PHP 中访问/创建 SITE_ROOT 和 SERVER_ROOT 值的最佳方式？

我需要 2 种不同的路径一种用于包含一种用于 js css 等我正在使用mod rewrite 下面的工作正常目前我的所有文件都在顶部包含此内容 define SERVER ROOT C wamp www site folder d
如何获取 std::vector 中 vtkDoubleArray 的值

我想复制 a 的元素vtkDoubleArray转换为 C std vector as in 如何将 vtkDoubleArray 转换为 Eigen matrix https stackoverflow com questions 246
从 sveltekit 中导出的句柄钩子重定向

我有一个 sveltekit 应用程序我想检查用户是否有 cookie 中的 accesstoken 我可以通过以下方式访问它event request headers get cookie 并将它们重定向到某个路径但我无法从 svel
在 Java 中实现 Memento 模式的不同方法

我正在对备忘录模式进行一些研究似乎我遇到的大多数示例似乎都相对相似将字符串保存到数组中并在需要时恢复它现在如果我错了请纠正我但我相信我刚刚描述的方法是对象克隆但是实现备忘录模式的其他方法是什么从我还了解到可以使用序列化但似乎
PHP比较两个数组并得到匹配的值而不是差异

我正在尝试比较两个数组并仅获取两个数组上存在的值但不幸的是我找不到正确的数组函数来使用我找到了array diff 功能 http php net manual en function array diff php http php
浏览器的“F5”和“Ctrl + F5”刷新会产生什么请求？

Is there a standard for what actions F5 and Ctrl F5 trigger in web browsers I once did experiment in IE6 and Firefox 2 x
使用 AVAssetWriter 从图像创建电影在 3GS 设备上无法按预期工作

对appendPixelBuffer的调用在3GS设备 IOS 4 1 上返回NO 但在iPhone 4设备上运行良好以下对appendPixelBuffer的调用是问题的根源 CVPixelBufferRef buffer NULL b
如何在键盘出现时将整个视图推高，需要进行哪些布局更改？ [复制]

这个问题在这里已经有答案了当显示键盘时我无法向上推整个回收器视图它会切断之前的消息我正在创建一个类似于以下 xml 的聊天视图
打印所有验证括号，递归在这里如何工作？

实现一个算法来打印 n 对括号的所有有效例如正确打开和关闭组合例子输入 3 例如 3 对括号输出答案是 private static void printPar int count char str new char coun
字典中的 NumPy 切片表示法

我想知道是否可以将 numpy 切片表示法存储在 python 字典中就像是 lookup 0 540 30 540 1080 60 1080 可以使用本机 python 切片语法例如slice 0 10 2 但我无法存储更复杂的切片
FindIterable 是否加载所有文档？

目前我正在使用MongoCollection
在文件中写入 mysql_connect ("localhost", "root", "mypasswd") 是否安全？

或者类似的东西 in www html inc folder connect db php mysql connect localhost root hashed mypasswd 这样更安全吗或者只是写mysql connect loc
当 WCF 方法返回 XmlElement 时，客户端会看到 XElement 返回吗？

我从 WCF 方法返回 xmlElement 当我在客户端中执行服务引用时相同的方法返回 XElement 而不是 XmlElement 我尝试了一切更新服务参考创建新的服务参考但没有帮助这是我的客户 ServiceReferen
使用 Notepad++ 查找双括号的正则表达式

我试图找到在另一个句子中具有左括号和右括号的句子例如 text more 我尝试了类似以下的内容至少匹配前两个但这是不对的我认为最好将之类的东西与惰性量词匹配并且它应该适用于文本中的任何内容即使它像 html 代码一样被分成几
Spark 写入 S3 存储选项

我正在将 Spark 数据帧保存到 S3 存储桶保存文件的默认存储类型是STANDARD 我需要它是 STANDARD IA 有什么选择可以实现这一目标我查看了 Spark 源代码发现 Spark DataFrameWriter 中没

Spark 写入 S3 存储选项

Spark 写入 S3 存储选项 的相关文章

随机推荐

热门标签

Spark 写入 S3 存储选项的相关文章