如何更有效地从spark重命名hdfs中的文件？

2024-03-18

我有 450K JSON，我想根据某些规则在 hdfs 中重命名它们。为了简单起见，我只添加一个后缀.finished给他们每个人。 A 成功地做到了这一点，代码如下：

import org.apache.hadoop.fs._

val hdfs = FileSystem.get(sc.hadoopConfiguration)
val files = hdfs.listStatus(new Path(pathToJson))
val originalPath = files.map(_.getPath())

for(i <- originalPath.indices)
{
   hdfs.rename(originalPath(i), originalPath(i).suffix(".finished"))
}

但全部重命名需要 12 分钟。有没有办法让它更快？（也许并行）我使用火花1.6.0。

原始路径.par.foreach( e => hdfs.rename(e,e.suffix("完成")))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

HDFS

如何更有效地从spark重命名hdfs中的文件？的相关文章

如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
如何从字符串列中提取数字？

我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
如何以最佳方式传递元组参数？

如何以最佳方式传递元组参数 Example def foo Int Int def bar a Int b Int 现在我想传递的输出foo to bar 这可以通过以下方式实现 val fooResult foo bar fooResul
IntelliJ IDEA 13：新的 Scala SBT 项目尚未生成 src 目录结构

我按照 Jetbrains 网站上的入门视频设置 IntelliJ IDEA 13 1 Community Edition 以与 Scala 配合使用 Scala 插件 v0 36 431 已安装当我使用向导创建一个新的 Scala SB
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何在Gradle中支持多种语言（Java和Scala）的多个项目？

我正在尝试将过时的 Ant 构建转换为 Gradle 该项目包含约50个Java子项目和10个Scala子项目 Java 项目仅包含 Java Scala 项目仅包含 Scala 每个项目都是由 Java 和 Scala 构建的这大大减慢
减少/折叠幺半群列表，但减少器返回任一

我发现自己遇到过几次这样的情况我有一个减速器组合 fn 如下所示 def combiner a String b String Either String String a b asRight String 它是一个虚拟实现但 fn
多个 scala 库导致 intellij 出错？

我正在使用 intellij 14 和 scala 2 11 6 使用 homebrew 安装并使用符号链接 ln s usr local Cellar scala 2 11 6 libexec src usr local Cellar s
Akka Stream Graph 恢复问题

我创建了一个图表来并行化具有相同输入的两个流这些流产生 Future Option Entity 如果 flowA 失败我想返回 Future None 但恢复似乎没有被调用 val graph Flow Input Future Op
Scala 宏的位置怎么了？

我试图获取宏参数的原始输入字符串但返回的位置似乎有点偏离考虑这个宏例如 object M import scala reflect macros Context import language experimental macros
Scala 的代码覆盖率工具 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
模拟 BlazeClientBuilder[IO] 以返回模拟客户端[IO]

我正在使用BlazeClientBuilder IO resource方法得到Client IO 现在我想模拟客户端进行单元测试但不知道该怎么做有没有一个好的方法来嘲笑这个我会怎么做 class ExternalCall val r
从 HList 获取元素

我尝试了 HList 并按预期进行了以下工作 val hl 1 foo HNil val i Int hl 0 val s String hl 1 但是我无法让以下代码正常工作让我们暂时假设对列表进行随机访问是一个聪明的主意 class
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
在 Scala 中将元素追加到列表末尾

我无法添加 type 元素T到一个列表中List T 我尝试过myList myElement但它似乎创建了一个奇怪的对象并访问myList last始终返回放入列表中的第一个元素我怎么解决这个问题 List 1 2 3 4 Result
scala中的反引号有什么用[重复]

这个问题在这里已经有答案了我在一本书上找到了以下代码 val list List 5 4 3 2 1 val result 0 list running total next element running total next elem
Akka-Streams 收集数据（Source -> Flow -> Flow (collect) -> Sink）

我对 Scala 和 Akka 完全陌生我有一个简单的 RunnableFlow Source gt Flow do some transformation gt Sink runForeach 现在我想要这样的东西 Source gt
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何在 scala repl 和 sbt 控制台中关闭/打开 typer 阶段

是否可以在不退出当前会话的情况下切换阶段我尝试进入 power 模式但它仍然不打印类型在SBT中只需添加以下设置 set scalacOptions in Compile console Xprint typer 在 REPL 中你可

随机推荐

@FXML 注释和 FXMLLoader 类未解析为 Java 11 和 JavaFX 11 中的类型

早些时候我的项目曾经在 Java 8 上运行但现在我使用 Java 11 和 JavaFX 11 现在自 Java 11 以来 JavaFX 已与 Java 解耦我还没有下载 JavaFX SDK 但在 pom xml 中添加了以下依
如何在不向下移动行的情况下将表情符号插入到 NSTextView 中？

如何将表情符号插入NSTextView不向下移动线如果我将表情符号字符插入NSTextView 整条线将向下移动几个像素如果我删除表情符号字符它会移回到原来的位置另一方面如果我将表情符号插入NSTextField 即使该行中的文本
使用 IAM 角色时 AWS boto3 InvalidAccessKeyId

我使用预先指定的帖子网址上传到 S3 并从 S3 下载预签名的 url post 是使用 Lambda 函数中的 boto3 生成的它是使用 zappa 部署的当我添加我的AWS SECRET ACCESS KEY and AWS
如何在 Python 中从文件夹外部访问模块？ [复制]

这个问题在这里已经有答案了如何从另一个文件夹访问模块这是文件结构
wordpress获取当前用户

我的 WordPress 目录中有一个用于某些模板应用程序的目录 apacheWWW wordpress jtpc 在我的应用程序中我想要 WordPress 当前用户 ID 我可以在一页中执行此操作但在另一页中出现错误这就是我获取用户
硒 while 循环不工作

所以我开始掌握 while 循环的窍门但是当在 selenium 代码上使用 while 循环时我遇到了不足我几乎尝试将一个任务复制 10 次代码如下 Main py from selenium import webdriver f
python os.path.realpath 无法正常工作

我有以下代码 os chdir os path dirname os path realpath file test path append os getcwd os chdir os path dirname os path realpa
mysql - 将行从一个表移动到另一个表

如果我有两个结构相同的表如何将一组行从一个表移动到另一个表行集将从选择查询中确定例如 customer table person id person name person email 123 tom email protected
查询字符串由 Spring 框架解码

我在这里遇到一个奇怪的问题但不确定这是否是错误该项目在Spring框架下运行风景
XMLHttpRequest.upload.onprogress 不适用于 HTTPS

Issue 我有一个页面用户可以在其中上传文件FormData and an XMLHttpRequest 上传文件工作正常但是upload onprogress is only上传时工作从 HTTP 连接 HTTPS HTTP 我已经
数据库查询：如何计算多列的最大值

假设我有下表 claim date person type 01 01 2012 adult 05 05 2012 adult 12 12 2012 adult 12 12 2012 adult 05 05 2012 child 05 05
如何设置java库路径进行处理

我正在使用 PDE 运行处理草图但出现以下错误验证java library path属性设置正确你们中有人能告诉我如何解决这个问题吗您可以在命令行上设置它 java Djava library path
发布网站到IIS，服务器锁定dll文件

我已经为这个问题苦苦挣扎了大约一周我正在尝试使用 FTP 将我的 MVC 网站发布到我的 IIS 服务器唯一的问题是当我传输文件时 MVC 总是锁定一些 DLL 文件 System Web MVC 等并在 10 分钟后释放它们这个
存在性反模式，如何避免

下面的似乎有效但看起来很笨拙 data Point Point Int Int data Box Box Int Int data Path Path Point data Text Text data Color Color Int I
C#中的[FromBody]属性有什么作用？

有没有一个函数 FromBody 属性我的意思是当我使用它时 public async Task SetUser FromBody User user 当我使用时 public async Task SetUser User user
Angular 5 与 Bootstrap 4 不工作

我创建了一个新的 Angular 5 项目之后我按照给出的指示进行操作Angular CLI GitHub 页面 https github com angular angular cli wiki stories include boot
使用 javascript 动态更新表

我有一个页面我在其中向服务器发送 ajax 请求页面上有一个表格显示一些数据服务器返回一个 json 对象它是对象列表并且不包含页面的任何布局我只想更新表rows通过返回的 json 如何在不使用第三方库而仅使用 jquery
获取双 SIM 卡 Android 手机中的两个 SIM 卡号码

我想获取双 SIM 卡设备中的两个 SIM 卡号码使用 API gt 21 需要许可android Manifest permission READ PHONE STATE public class SplahActivity exten
Web 服务器上的 PHP 将图像发送到另一台服务器并返回结果

我正在努力实现这一切我有一个 PHP 文件index php运行在客户端上传文件的 Web 服务器 WAS 上我有另一台足够强大的服务器 GPU 来处理这些文件我的用例是客户上传通过a发送的图像POST请求index php 现在
如何更有效地从spark重命名hdfs中的文件？

我有 450K JSON 我想根据某些规则在 hdfs 中重命名它们为了简单起见我只添加一个后缀 finished给他们每个人 A 成功地做到了这一点代码如下 import org apache hadoop fs val hdfs

如何更有效地从spark重命名hdfs中的文件？

如何更有效地从spark重命名hdfs中的文件？ 的相关文章

随机推荐

热门标签

如何更有效地从spark重命名hdfs中的文件？的相关文章