根据 Spark scala 中的文件夹名称重命名和移动 S3 文件

2024-01-01

我在 s3 文件夹中有 Spark 输出，我想将所有 s3 文件从该输出文件夹移动到另一个位置，但在移动时我想重命名这些文件。

例如，我在 S3 文件夹中有文件，如下所示

现在我想重命名所有文件并放入另一个目录中，但文件的名称如下所示

Fundamental.FinancialStatement.FinancialStatementLineItems.Japan.1971-BAL.1.2017-10-18-0439.Full.txt
Fundamental.FinancialStatement.FinancialStatementLineItems.Japan.1971-BAL.2.2017-10-18-0439.Full.txt
Fundamental.FinancialStatement.FinancialStatementLineItems.Japan.1971-BAL.3.2017-10-18-0439.Full.txt

这里Fundamental.FinancialStatement在所有文件中都是恒定的2017-10-18-0439当前日期时间。

这是我到目前为止所尝试过的，但无法获取文件夹名称并循环遍历所有文件

    import org.apache.hadoop.fs._

val src = new Path("s3://trfsmallfffile/Segments/output")
val dest = new Path("s3://trfsmallfffile/Segments/Finaloutput")
val conf = sc.hadoopConfiguration   // assuming sc = spark context
val fs = src.getFileSystem(conf)
//val file = fs.globStatus(new Path("src/DataPartition=Japan/part*.gz"))(0).getPath.getName
//println(file)
val status = fs.listStatus(src)    

status.foreach(filename => {
               val a = filename.getPath.getName.toString()
                println("file name"+a)
                //println(filename)
             })

这给了我以下输出

    file nameDataPartition=Japan
file nameDataPartition=SelfSourcedPrivate
file nameDataPartition=SelfSourcedPublic
file name_SUCCESS

这为我提供了文件夹详细信息，而不是文件夹内的文件。

参考资料取自这里堆栈溢出参考 https://stackoverflow.com/questions/48200035/how-rename-s3-files-not-hdfs-in-spark-scala/48223470?noredirect=1#comment83543229_48223470

您正在获取目录，因为您在 s3 中有子目录级别。

/*/* to go in subdir .

Try this

import org.apache.hadoop.fs._

val src = new Path("s3://trfsmallfffile/Segments/Output/*/*")
val dest = new Path("s3://trfsmallfffile/Segments/FinalOutput")
val conf = sc.hadoopConfiguration   // assuming sc = spark context
val fs = src.getFileSystem(conf)

val file = fs.globStatus(new Path("s3://trfsmallfffile/Segments/Output/*/*"))


  for (urlStatus <- file) {
    //println("S3 FILE PATH IS ===:" + urlStatus.getPath)
    val partitioName=urlStatus.getPath.toString.split("=")(1).split("\\/")(0).toString
    val finalPrefix="Fundamental.FinancialLineItem.Segments."
    val finalFileName=finalPrefix+partitioName+".txt"
    val dest = new Path("s3://trfsmallfffile/Segments/FinalOutput"+"/"+finalFileName+ " ")
    fs.rename(urlStatus.getPath, dest)
  }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

amazons3

根据 Spark scala 中的文件夹名称重命名和移动 S3 文件的相关文章

为使用 Carrierwave 上传图像文件的用户提供适当的 s3 权限

在 Michael Hartl 撰写的 Rails 教程第 11 章末尾我通过创建存储桶使用 IAM 设置用户并授予用户 AmazonS3FullAccess 策略成功地实现了用户上传到 Amazon S3 服务的功能允许我网站上
如何在 Lift 中反序列化 DateTime

我在将 org joda time DateTime 字段从 JSON 反序列化到案例类时遇到问题 JSON val ajson parse creationDate 2013 01 02T10 48 41 000 05 00 我还设置了这
重载方法值与替代方法的聚合

我有以下函数但无法编译 private def save pea KStream String String Unit pea groupByKey aggregate gt folder String String value Stri
Scala 插入列表中的特定位置

这是我确实解决的问题但是作为一个完全命令式的 Scala 菜鸟我觉得我发现了一些完全不优雅的东西任何改进的想法表示赞赏 val l1 4 1 2 3 4 Nil original list val insert List 88 99
Spark中RDD转换的结果是什么？

谁能解释一下结果是什么RDD 转换它是新的数据集数据副本还是只是新的指针集用于过滤旧数据块 RDD 转换允许您在 RDD 之间创建依赖关系依赖关系只是产生结果程序的步骤谱系链依赖字符串中的每个 RDD 都有一个计算其数
登录模块控制标志在 JAAS 配置中不可用 - Scala Kafka

尝试使用 kerberos 身份验证连接到 Kafka 时遇到问题使用 scala 和我的jaas config看起来像这样 KafkaClient com sun security auth module Krb5LoginModule
在 Scala REPL 中访问包私有方法

假设我有一个private stuff method Stuff something in org my stuff 我可以在 Scala REPL 中做些什么以便我可以调用Stuff something没有得到错误error value
Spark UDF 错误 - 不支持 Any 类型的架构

我正在尝试创建一个 udf 它将列中的负值替换为 0 我的数据框名为 df 包含一列名为 avg x 这是我创建 udf 的代码 val noNegative udf avg acc x Double gt if avg acc x lt
Spark sql 每组前 n 个

我怎样才能获得每组的前n名比如说前10名或前3名 spark sql http www xaprb com blog 2006 12 07 how to select the firstleastmax row per group in
如何仅更改音频文件的 AWS S3 内容类型

我在 AWS S3 存储桶上有超过 50000 个文件音频图像 pdf 现在我面临着 Firefox 的问题由于其内容类型音频文件无法在 Firefox 上播放之前一直运转良好当我更改内容类型时音频文件效果很好二进制八位字节
Scala Eclipse 自动完成功能损坏？

我正在尝试让自动完成功能在 Eclipse 中用于 Scala 开发我试图从 Scala 类引用 java 类但自动完成功能从未找到它例如以这个 scala 类为例 object Main def main args Array S
如何在不进行硬编码的情况下使用 Cake 模式进行依赖注入？

我刚刚阅读并享受蛋糕图案文章 http jonasboner com real world scala dependency injection di 然而在我看来使用依赖项注入的关键原因之一是您可以改变 XML 文件或命令行参数所使用
JavaFX 控制器如何访问其他服务？

我将 JavaFX 2 与 Scala 一起使用我有class Application extends javafx application Application它执行诸如读取应用程序配置等操作然后它会启动主窗口该主窗口需要连接到一
Spark 写入 S3 V4 SignatureDoesNotMatch 错误

我遇到S3SignatureDoesNotMatch尝试使用 Spark 将 Dataframe 写入 S3 时症状尝试过的事情代码失败有时但有效有时代码可以read从 S3 没有任何问题并且能够不时写入 S3 这排除了错误的配置
在无形状中，有两个列表，其中一个包含另一个的类型类

在无形中我正在尝试编写一个需要两个 HList 的函数l1 and l2任意长度具有以下属性的长度l1 and l2是相同的 l2包含的确切类型l1 包装在常量外部类型构造函数中 So if l1 was 1 1 2 hello HN
Spark错误：无效的日志目录/app/spark/spark-1.6.1-bin-hadoop2.6/work/app-20161018015113-0000/3/

我的 Spark 应用程序因上述错误而失败实际上我的 Spark 程序正在将日志写入该目录 stderr 和 stdout 都被写入所有工作人员我的程序以前运行良好但昨天我将 fodler 更改为指向 SPARK WORKER DIR
Instagram 如何使用 Amazon S3？

在将文件上传到 Amazon S3 时我需要深入了解 Instagram 的工程我刚刚开始使用 S3 我认为 Instagram 是一个值得效仿的好模式因为他们每天上传数千张图片我的应用程序有点相似用户上传图片可以删除自己的图片
使用新的反射API，如何找到类的主构造函数？

您可以像这样获取类的所有构造函数 import scala reflect runtime universe val ctor typeOf SomeClass declaration nme CONSTRUCTOR asTerm alte
如何列出Resources文件夹中的所有文件（java/scala）

我正在编写一个函数需要访问资源中的文件夹并循环遍历所有文件名如果这些文件符合条件则加载这些文件 new File getClass getResource images sprites getPath listFiles 返回空指针
Scala Play 2.3 IntelliJ 14 *社区版 - 是否可以在没有命令行激活器命令的情况下运行项目

From http blog jetbrains com scala 2012 12 28 a new way to compile http blog jetbrains com scala 2012 12 28 a new way to

随机推荐

CakePHP 用 MAX 查找

表格和虚拟数据 CREATE TABLE IF NOT EXISTS messages id int 11 unsigned NOT NULL auto increment user id int 11 unsigned NOT NULL
Mayavi：在 triangular_mesh 中插入面部颜色

我已经拼凑了以下代码使用指定的颜色绘制三角形网格附加标量函数 usr bin env python import numpy as np from mayavi import mlab Create cone n 8 t np lins
将元素定位在
的右上角

我有一个Fiddle http jsfiddle net pTNqe 9 其中包含一个 div 一些文本和一个按钮我想将按钮放置在 div 的右上角无论 div 有多大或者 div 中有多少文本我想像 float right pos
如何在 flutter 中使用粘性组列表时选择多个项目

在这里解释一下我想要什么我从 GitHub 获得了这段代码当用户开始选择项目时我想要带有操作按钮的应用栏就像多个项目选择和应用栏显示所选项目的数量我可以使用 ListViewbuilder 轻松完成此操作但不知道如何在使用粘性组
SwiftUI：如何仅在需要时更新从父视图传输的变量？

我想将变量从父视图传递到子视图但在此子视图中在文本字段中使用它但仅在按下保存按钮时更新此值我试过这个父视图 struct ParentView View State private var name String var bo
“奇怪的”C# 属性语法

我刚刚在一个 c 项目中看到了这个 public char this int index 我认为自己是 C 新手任何人都可以帮助它的含义是什么它是一个索引器索引器允许对类或结构的实例进行索引就像数组索引器类似于属性只是它们的访
PowerBI：将列拆分为单独的列

我有一个正在导入的类别多选字段其中包含多个用逗号分隔的值农业小额信贷和平建设我的主要本能是使用文本函数将每个值拆分为单独的列但我想知道是否有更好更简单的方法来做到这一点好的找到了在数据视图中打开编辑查询右键单击该列拆
如何从多个数据帧创建热图

我对 R 还很陌生并且一直困惑于如何从列表中的多个数据帧创建热图每个数据框中有 3 列 X 位置 Y 位置 PatchStatus 第一个数据框如下所示 listofdfs lt list list of dataframes list
Flyway 无法连接到 docker-entrypoint-initdb.d 脚本中的 postgres 容器

我正在尝试延长docker 的 postgres https hub docker com postgres 图像可能通过环境变量标志在 DB init 上执行 Flyway DB 迁移我的 Dockerfile 在这里 FROM p
extjs，是否可以压缩加载ext-all.js？

我有一个使用 extjs 库的网站确切地说我只需要网格 ajax 和树组件我的项目是全国使用的为了避免某些地区带宽低造成的问题我必须让它尽可能的轻量当我在chrome中使用开发者工具时我的网站太重了特别是在加载 ext al
Ruby：查找字符串中的前 N 个正则表达式匹配项（并停止扫描）

想要扫描很长的字符串以查找正则表达式匹配想知道找到前 N 个正则表达式的最有效方法是什么例如就像是 abcabcabc scan b limit 2 如果仅扫描支持限制选项则会在 5 个字符后成功结束该字符串有几 MB 内存中的记忆
FTPWebRequest 530 错误：未登录问题

我一直在挖掘大量关于如何在 C 中正确登录 FTP 的帖子但当我真正尝试时它不起作用通过我的阅读我开始认为这是因为我的用户名中有 at 符号这是真的还是有其他问题我可以使用 FileZilla 登录没有问题 var file
如何将nodejs从6.x更新到8.x？

简单的问题如何将nodejs从6 x更新到8 x 我有 Ubuntu 16 04 我应该卸载旧版本并安装新版本吗如果是这样我该怎么做一个尝试过的须藤最新但它说 sudo n 未找到命令当我刚刚最新的需要 sudo 卧槽 U
有关 SQL Server 触发器的帮助

假设我有3张桌子 t1 Nid name 1 aaa 2 bbb 3 ccc delT1 Nid name t2 Sid Nid value 1 1 AAA 2 1 BAC 3 2 CSA 表中t1 Nid是主键是外键t2 现在我想要的是
从 NSUrlConnection didReceiveAuthenticationChallenge 提供有意义的错误

我正在使用 OWASP 示例证书和公钥固定 https www owasp org index php Certificate and Public Key Pinning 示例使用随机组织 http www random org and
将 *.sdf 文件添加到 .gitignore 的可能影响

我最近将一个 Visual Studio C 项目推送到了 github 我注意到 VS 创建了一个相对较大的 sdf 文件 25MB 我尝试删除工作区中的这个文件看看 VS 是否会抛出错误在 VS 中打开项目后没有报告任何错误并且
我什么时候应该使用“类对象”、“类模块”、“模块内核”而不什么都不用？

我是 ruby 元编程的新手我看到人们在不同的地方对代码进行元编程比如class Object class Module module Kernel和无即在类模块定义块之外例如我正在创建一个c attr accessor方法
如何在dompdf中应用bootstrap样式

我正在使用 bootstrap grid 来显示我希望我的客户端以 pdf 格式下载它因此我使用 dompdf 但 dompdf 无法应用 bootstrap 样式我无法返回并将我的引导网格转换为基本的 html 表并使用不同的插件转
出现错误 - ORA-01858: 在需要数字的地方发现了非数字字符

我在下面的 sql 中收到错误 ORA 01858 在需要数字的地方发现了非数字字符 SELECT c contract num CASE WHEN MAX TO CHAR TO DATE c event dt YYYY MM DD MMD
根据 Spark scala 中的文件夹名称重命名和移动 S3 文件

我在 s3 文件夹中有 Spark 输出我想将所有 s3 文件从该输出文件夹移动到另一个位置但在移动时我想重命名这些文件例如我在 S3 文件夹中有文件如下所示现在我想重命名所有文件并放入另一个目录中但文件的名称如下所示 Fun

根据 Spark scala 中的文件夹名称重命名和移动 S3 文件

根据 Spark scala 中的文件夹名称重命名和移动 S3 文件 的相关文章

随机推荐

热门标签

根据 Spark scala 中的文件夹名称重命名和移动 S3 文件的相关文章