如何在spark scala中重命名S3文件而不是HDFS

2023-12-08

我在 S3 中存储了大约 100 万个文本文件。我想根据文件夹名称重命名所有文件。

我怎样才能在 Spark-scala 中做到这一点？

我正在寻找一些示例代码。

我正在使用 zeppelin 来运行我的 Spark 脚本。

下面的代码我已经按照答案的建议进行了尝试

import org.apache.hadoop.fs._

val src = new Path("s3://trfsmallfffile/FinancialLineItem/MAIN")
val dest = new Path("s3://trfsmallfffile/FinancialLineItem/MAIN/dest")
val conf = sc.hadoopConfiguration   // assuming sc = spark context
val fs = Path.getFileSystem(conf)
fs.rename(src, dest)

但低于错误

<console>:110: error: value getFileSystem is not a member of object org.apache.hadoop.fs.Path
       val fs = Path.getFileSystem(conf)

您可以使用普通的 HDFS API，例如（输入，未测试）

val src = new Path("s3a://bucket/data/src")
val dest = new Path("s3a://bucket/data/dest")
val conf = sc.hadoopConfiguration   // assuming sc = spark context
val fs = src.getFileSystem(conf)
fs.rename(src, dest)

S3A客户端伪造重命名的方式是copy + delete每个文件的数量，因此所需的时间与文件数量和数据量成正比。 S3 会限制你：如果你尝试并行执行此操作，它可能会减慢你的速度。如果需要“一段时间”，请不要感到惊讶。

您还需要按每次 COPY 调用付费，每 1,000 次调用 0.005 美元，因此尝试费用约为 5 美元。在一个小目录上进行测试，直到确定一切正常

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

amazonwebservices

apachespark

amazons3

apachezeppelin

如何在spark scala中重命名S3文件而不是HDFS 的相关文章

如何为数据源指定特定区域的ACM证书？

我已经为两个区域 ap northeast 1 和 us east 1 的同一域颁发了 2 个证书因为我的主服务器位于 ap northeast 1 而 CloudFront 需要 us east 1 中的证书我想在 us east 1
为什么 dagger 被认为比 Guice 更适合 AWS lambda 实现？

我知道 dagger 通过生成代码在编译时创建注入因此它的性能比 Guice 更好 Guice 在运行时执行注入但特别是对于 lambda 的情况我看到在多个地方都提到 Dagger 是首选是因为冷启动问题吗由于lambda的冷启
将 DOCTYPE 添加到 Scala XML 的最简单方法？

我怎样才能在 Scala XML 中制作这个最小的 HTML5 p p 当然在 Scala 中制作类似 HTML 的 XML 很简单 gt val html p p html scala xml Elem p p 但是我怎样才能注入DO
承诺的反面是什么？

承诺代表将来可能可用或无法实现的值我正在寻找的是一种数据类型它表示将来可能变得不可用的可用值可能是由于错误 Promise a b TransitionFromTo
比较 javascript 元素和 scala 变量的 Play 框架 Twirl 模板

如下面的代码示例所示我想比较 scala 辅助元素内的 javascript 元素然而即使存在元素 abcde 它也始终返回 false 除了使用标签之外如何获取 scala 辅助元素内的 javascript 值 appSeq S
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
Amazon S3：奇怪的错误 - “有时”签名不匹配，有时确实如此

我正在为销售人员开发代码我们正在使用 Appexchange 的 Force com for Amazon Web Services 应用程序该应用程序由亚马逊提供我正在计算机上从 Amazon S3 下载文件有时我会收到下面提到的
如何使用 cloudfront/route53 将通配符域 (*.example.com) 指向 s3 存储桶

我已通过 SSL 认证并使用 Cloudfront Route 53 和 s3 存储桶为我的网站设置主页 example com 和 www example com 该网站只是一个基本的静态网站我正在尝试设置我的 Cloudfront
Scala 中用于阻止调用的 Future

The Akka文档说 you may be tempted to just wrap the blocking call inside a Future and work with that instead but this strate
Scala 中的高级类型 [重复]

这个问题在这里已经有答案了我正在阅读 Scala 中的函数式编程一书在 Monoids 章节中他们讨论了 Monoid 接口如下所示 trait Monoid A def op a1 A a2 A A def zero A 后来他
带有非字符串值的 AWS S3 x-amz-meta 错误：InvalidHeader 和 InvalidParameterType

尝试使用node js AWS sdk时s3Client upload带有元数据的可选参数 const AWS require aws sdk const s3Client new AWS S3 params Key key secret
azure 和 google 上的自定义联合代理

azure 和 google 中的 aws 上的自定义联合代理可以替代什么在AWS中我可以创建一个允许联合用户登录并访问这样的资源的url https docs aws amazon com IAM latest UserGuide i
使用 Java 从 S3 上的文件在 S3 上创建 zip 文件

我在 S3 上有很多文件需要对其进行压缩然后通过 S3 提供压缩文件目前我将它们从流压缩到本地文件然后再次上传该文件这会占用大量磁盘空间因为每个文件大约有 3 10MB 而且我必须压缩多达 100 000 个文件所以一个 z
在 Scala 中创建任意类作为 monad 实例

为了使任何东西都可以在 monad 上下文中操作如果使用 Haskell 我只需在任何地方为给定类型添加类 Monad 的实现所以我根本不接触数据类型定义的来源像人造的东西 data Z a MyZLeft a MyZRight a
如何使用自定义源正确设置 Amazon Route 53、CloudFront

我目前正在使用亚马逊 53 号公路用于我的 DNS 设置和自定义源亚马逊外部的 Web 服务器我想补充一下云锋混合但我不太确定如何设置它我已经看过 Amazon 关于使用 Route 53 和 CloudFront 设置 S3 的指南
AWS Lambda 函数误解了 python 中的事件字典？

我正在尝试将谷歌日历 API 部署到 AWS Lambda 由于我在从事件字典中提取值时遇到问题由 lambda 从 POST 请求的 JSON 负载创建因此我创建了一个玩具函数来测试 def handler event context
如何在 DynamoDB 中有条件地执行 SET 操作

我在 DynamoDb 中有一个包含以下列的聚合表 id sum count max min and hash 我会一直想更新sum and count但会想更新min and max仅当我的值大于小于数据库中已有的值时另外我只希望此
如何查看移动设备是否已注册

我正在使用适用于 Amazon SNS 的 Amazon AWS Ruby SDK 但在已注册的设备方面遇到一些问题有时当设备再次注册时我会收到类似错误AWS SNS Errors InvalidParameter Invalid p
AWS Amplify Appsync 解决创建具有关系的对象时出现的错误

我正在尝试创建一个具有关系的对象我正在使用自动生成的放大突变当我创建一个没有关系的对象时操作会成功当我创建具有关系的对象时操作失败我收到的错误消息是 The variables input contains a field na
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计

随机推荐

当两个应用程序都使用嵌入式 activemq 时，如何将 Jms 消息从一个 spring-boot 应用程序发送到另一个应用程序

我有两个 spring boot 应用程序在接收器应用程序的 Application java 中我有 Bean public JmsListenerContainerFactory
在 WebAPI 中将 HttpResponseMessage 作为 excel 文件返回的问题

我创建了 WebAPI 它使用 closexml nuget 返回一个 excel 文件基本上它改变了我的DataTable脱颖而出我指的是下面的几个链接如何在 ASP NET WebAPI 中返回文件 FileContentResu
在 Flutter 中访问 Firebase 存储

我对 Flutter 相当陌生以前从未使用过 Firebase 所以如果有明显的解决方案我深表歉意我正在开发一个 Flutter 应用程序其中涉及记录表单提交并将其提交到中央位置 Firebase Storage 似乎很合适因为据
获取 GeoPandas 中几何图形之间的交集计数

是否可以使用 GeoPandas 对象获取两个几何图形之间的交集计数也就是说我想计算一个 GeoDataFrame 中与另一个 GeoDataFrame 中的每个多边形相交的多边形或线串的数量在浏览 GeoPandas 文档时我没有
寻找 C# 注册表类 [已关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案寻找包装调用以执行以下操作的 C 类读取和写入键值读取和写入密钥条目枚举键中的条目这个很重要例如需要列出以下位置的所有条目 HKEY L
如何使用装饰器将变量注入作用域？

免责声明可能有更多的Python方式来做我想做的事情但我想知道Python的作用域在这里是如何工作的我正在尝试找到一种方法来制作一个装饰器该装饰器可以执行诸如将名称注入另一个函数的作用域之类的操作这样该名称就不会泄漏到装饰器的作用
根据参考重新排序多索引数据框列

我有一个多索引数据框其名称附加到列级别数据表看起来像这样 df1 TIME TMC 111N1 111P2 111N3 111P4 DATE EPOCH 0 143 113 103 NaN 1 183 NaN NaN NaN 2 NaN
CodeIgniter 与 PHPExcel 致命错误无法重新声明类 IOFactory

我正在尝试将 PHPExcel 与 CodeIgniter 一起使用我的问题是当我想使用下面的方法时我得到了PHP 致命错误无法重新声明类 IOFactory 如果您不确定文件类型则可以在使用 createReader 方法实例化读
在切片末尾工作是否惯用？

我正在阅读 Go 的compress flate包我发现了这段奇怪的代码 1 n int32 len list list list 0 n 1 list n maxNode 在上下文中 list保证指向后面有更多数据的数组这是一个私有函
如何在 Laravel PHP 框架中合并两个集合而不丢失（丢失）键？

我是 Laravel PHP 的新手我正在做我的个人玩具项目我遇到了一个我已经在 Google 上搜索了很长时间的问题但是我无法找出完美的解决方案问题是我有两个集合 questions and answers 我想将它们合并到
用欧拉化求解中文Postman算法

我想在不存在欧拉循环的图中解决中国邮递员问题所以基本上我正在寻找图中的一条路径该路径恰好访问每个边一次并在同一节点处开始和结束当且仅当每个节点具有相同数量的进入和离开图的边时图才会有欧拉循环显然我的图表没有我发现欧拉化制作欧
System.Text.Json 中可以进行多态反序列化吗？

我尝试从 Newtonsoft Json 迁移到 System Text Json 我想反序列化抽象类 Newtonsoft Json 为此提供了 TypeNameHandling 有没有办法通过 net core 3 0 上的 Syste
如何在不使用浏览器的情况下从 .NET Web 服务代码从 OKTA 获取 SAML 令牌？

我们拥有由 Kendo UI 和后端 NET Web 服务构建的混合移动应用程序所有来自 UI 的调用都是通过 ajax 进行的现在我们需要将应用程序集成到 OKTA 中以进行用户身份验证但不确定如何直接从 Web 服务调用中从 OK
在 ggplot2 中使用 Unicode 字符（加减号）

我正在尝试构建一个包含 unicode 字符的图正负号sign U 00B1 以下是一些虚假数据 library tidyverse set seed 1 df lt crossing Rated Movement c Running J
在Java中将列表转换为数组[重复]

这个问题在这里已经有答案了我怎样才能转换List to an Array在Java中检查下面的代码 ArrayList
在启用 ASP.NET 兼容性/会话的环境中，AJAX 可访问的长时间运行的服务任务会阻止后续 AJAX 服务请求

我遇到了以下链接中描述和解决的问题 http blogs msdn com b silverlightws archive 2009 09 30 having a pollingduplex service and any other wc
不太清楚 Cassandra 的反模式

假设有一个表其结构如下 create table cities root text name text primary key root name with clustering order by name asc for getting
如何检查图像的尺寸，以便按比例缩小图像以避免失真？

当人们写文章时他们会提交一张照片来说明事件但是展示的空间并不宽阔所以我想减少它们的宽度和或高度同时保持它们的原始比例否则图像会失真假设最大宽度为 300px 任何比这更宽的宽度都会减少到 300 像素但是我希望高度减
从 Nest Cam 访问直播

我是一款名为 Feather featherapp co 的 Nest 综合 Apple TV 应用程序的开发人员我遇到的一个问题是用户希望能够查看摄像头的实时直播有谁确定了访问摄像机实时画面的方法吗我已经做了相当多的逆向工程但我
如何在spark scala中重命名S3文件而不是HDFS

我在 S3 中存储了大约 100 万个文本文件我想根据文件夹名称重命名所有文件我怎样才能在 Spark scala 中做到这一点我正在寻找一些示例代码我正在使用 zeppelin 来运行我的 Spark 脚本下面的代码我已经按照答

如何在spark scala中重命名S3文件而不是HDFS

如何在spark scala中重命名S3文件而不是HDFS 的相关文章

随机推荐

热门标签