分别处理spark中的多个目录

2024-04-25

我在 HDFS 中有一个目录列表，每个目录包含多个文件。我的目标是将一个目录中的所有文件合并为一个文件，但每个目录分别合并。在 Spark 中执行此操作最快的方法是什么？顺序迭代所有目录太慢。所以我想并行进行。一种解决方案可能是使用线程池。也许有更好、更快、更原生的？

Thanks!

考虑以下测试目录foo and bar包含以下文件：

cat /tmp/foo/0.csv
4
cat /tmp/foo/1.csv
3
cat /tmp/bar/0.csv
7

我们可以使用以下代码片段来读取它们：

val df = spark.read.csv("/tmp/foo", "/tmp/bar")
  .withColumn("dir", regexp_extract(input_file_name(), """([^/]*)/[^/]+\.csv$""", 1))
df.show()
/*
+---+---+
|_c0|dir|
+---+---+
|4  |foo|
|3  |foo|
|7  |bar|
+---+---+
*/

功能input_file_name给出文件的绝对路径，因此我们可以使用它来获取目录。功能regexp_extract仅用于转换，例如/tmp/foo/1.csv -> foo.

Spark 写入文件时，每个分区输出一个文件。因此，我们需要按列重新分区dir合并每个目录下的所有文件。最后，我们可以使用partitionBy也将目录名称获取到输出文件结构。例如

df.repartition($"dir")
  .write
  .partitionBy("dir")
  .csv("/tmp/out")

会产生文件

/tmp/out/._SUCCESS.crc
/tmp/out/dir=bar/.part-00067-d780b550-785f-416c-b090-8d93694ba65c.c000.csv.crc
/tmp/out/dir=bar/part-00067-d780b550-785f-416c-b090-8d93694ba65c.c000.csv
/tmp/out/_SUCCESS
/tmp/out/dir=foo/part-00110-d780b550-785f-416c-b090-8d93694ba65c.c000.csv
/tmp/out/dir=foo/.part-00110-d780b550-785f-416c-b090-8d93694ba65c.c000.csv.crc

where /tmp/out/dir=bar/part-00067-d780b550-785f-416c-b090-8d93694ba65c.c000.csv包含

and /tmp/out/dir=foo/part-00110-d780b550-785f-416c-b090-8d93694ba65c.c000.csv包含

4
3

AFAIK 如果没有例如，不可能将这些输出文件写入与原始输入相同的目录结构。拥有定制的 HadoopFileSystem类等

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

分别处理spark中的多个目录的相关文章

无法向 kafka 主题发送消息

我正在使用 Kafka Play 以及 Scala 这是我的代码我想在其中发送消息到kafka服务器主题名称是测试主题尽管我没有在主题中看到我发送的消息但我没有收到任何错误这里有什么问题吗 import kafka produc
使用 vs code，如何让 scala 格式工作并格式化我的代码？

我的多项目 sbt 存储库中有 scala 格式插件 addSbtPlugin org scalameta sbt scalafmt 2 3 2 所以在 sbt 控制台中如果我运行 scalafmt 它工作正常我的 build sbt 有
for-yield-getOrElse 是 Scala 的范例还是有更好的方法？

基本上我想提取一堆选项 a b 等这是在 Scala 中执行此操作的最佳方法吗对于我来说括号中的 for yield 看起来有点令人困惑 for a lt a b lt b c lt c yield getOrElse 尝试使用map
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
scala 使用 GMPUtil 处理 pidigits

Rex Kerr 发布了有关在 scala 中使用 GMP 的信息特别是运行 pidigits 程序 libjpargmp so 使用 GmpUtil c 生成我的问题是在哪里可以找到 GMPUtil c 我的谷歌搜索没有发现任何东西
idea sbt java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

我是spark的初学者我使用 linux idea sbt 构建了一个环境当我尝试快速启动Spark时我遇到了问题 Exception in thread main java lang NoClassDefFoundError org
对于值类型，asInstanceOf[X] 和 toX 之间有什么区别吗？

我使用 IntelliJ 将 Java 代码转换为 Scala 代码的功能通常效果很好看来 IntelliJ 用调用替换了所有强制转换asInstanceOf 是否有任何有效的用法asInstanceOf Int asInstanceO
为什么不重新评估 Binding.scala 路由器？

我正在尝试通过 Binding scala 为个人项目构建通用路由器我定义了一个PageState trait sealed trait WhistState def text String def hash String def ren
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
Scala 如何将 Map 转换为元组的可变参数？

在 Scala Play 2 2 x 测试的背景下我有一个Map String String 我需要将其传递给接受的函数 String String 即一个可变参数 String String tuple e g val data Map
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
Scala 对大数的阶乘有时会崩溃，有时不会

以下程序经过编译和测试有时返回结果有时充满屏幕 java lang StackOverflowError at scala BigInt apply BigInt scala 47 at scala BigInt equals BigI
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
'val' 或 'var'，可变还是不可变？

我可以定义一个变量通过var 是不可变的 var x scala collection immutable Set aaaaaa bbbbbb println x isInstanceOf scala collection immutab
演员邮箱溢出。斯卡拉

我目前正在与 scala 的两位演员合作一 producer 产生一些数据并将其发送到parcer 生产者发送一个HashMap String HashMap Object List Int 通过消息以及this标记发件人 parcer
结构化 scala 案例类的自定义 json 序列化

我有一些用于往返 scala 案例类的工作 jackson scala 模块代码 Jackson 对于平面案例类非常有用但是当我制作一个包含其他案例类列表的案例时我似乎需要很多代码考虑 abstract class Message c
使用 slick 3.0.0-RC1 无法在 TableQuery 上找到方法结果

我正在尝试 Slick3 0 0 RC1我遇到了一个奇怪的问题这是我的代码 import slick driver SQLiteDriver api import scala concurrent ExecutionContext Imp
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
用于真实 Web 项目的 Scala-JS [已关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案有人用过吗Scala JS在真实的网络项目中但不仅仅适用于普通的JavaScript在隔离环境中替换我想尽可能多地使用 Scala 我希望可

随机推荐

如何在未root的Android设备上检查数据库

我正在开发一个应用程序其中使用 sqlite3 数据库来存储值我的 Nexus S 和 Nexus 7 都是未 root 的设备我如何获取我的应用程序的数据库以进行调试我努力了 1 我已经尝试了所有提到的方法here http bl
获取实体框架连接字符串

我们使用实体框架 5 但要求还使用应用程序中的普通数据库连接来执行我们需要执行的某些自定义 SQL 因此我正在创建一个处理此连接的数据库访问类有没有一种方法可以通过检查实体框架连接字符串来填充连接字符串 So SqlConnection
当插入触发器处于活动状态时，无法将 4 字节 UTF-8 字符/表情符号插入 MySQL 数据库

当查询包含 4 字节 UTF 8 字符时我在使用记录对表执行的所有查询的数据库触发器时遇到问题 My mysql cnf https pastebin com 3cix3GzZ Ubuntu 16 04 上的 mysql 版本为 5 7
Angularjs 服务回调以更新控制器的范围

具有第三方库回调函数的服务 mbAppModule service aService function http this data somedata 0 var m3rdPartLib init init m3rdPartLib on t
Python 和 lmfit：如何使用共享参数拟合多个数据集？

我想使用lmfit http lmfit github io lmfit py 模块将函数拟合到可变数量的数据集并具有一些共享参数和一些单独参数以下是生成高斯数据并分别拟合每个数据集的示例 import numpy as np impo
gcc 4.5 中在链接方面引入的更改？

我有一个项目生成一个共享库该库与另一个共享库链接当我用 gcc 4 4 编译并链接它时一切正常没有编译时警告或错误没有链接时间警告或错误并且 ldd libmyproject so正确报告与其他共享库的依赖关系另一方面当我用
servicestack 自托管服务使用分块编码 - 是无缓冲的吗？

我正在尝试通过 hello world 示例和自托管示例来学习 ServiceStack 我正在请求 JSON 内容我在响应标头中注意到以下内容 ASP Net 项目中托管的基本服务 HTTP 1 1 200 OK Server ASP
如何使用cast SDK获取所有cast设备的列表？

我正在努力获取网络中可用的所有 Chrome Cast 设备的列表我能够使其与在操作栏中添加媒体路由器按钮的默认实现一起使用我想要实现的是获取所有可用的投射设备的列表包括 Fire Stick 和智能电视基本上是所有支持 DIAL
访问 Azure Service Fabric 有状态服务状态

我已将 Web API 添加到我的有状态服务并想要访问StateManager从它从外面StatefulService类实现最好的方法是什么目前我正在为此使用一个小类 internal static class InstanceAcc

为什么这些嵌套的元素不遵循 HTML 层次结构？
JSF 在这里 https jsfiddle net KheKhe ydv9jjo0 在这个SSCCE中有一个 table 元素嵌套在另一个元素中 table 元素但它们在网页上的渲染方式并不符合预期当我检查 Google Chrom

Web API 通用操作

我有一个 http 操作需要采用两个不同的对象模型实现查看两个模型对象并知道此时要做什么我可以使用通用对象吗 HttpPost public IHttpActionResult InsertData string accessKey

AWS cli查询获取具有特定源名称的cloudfront“域名”

这是我想要从 awscli 获得的 JSON 输出xxxxxxxx cloudfront net使用原始域名example1 com仅适用于 AWS cli 查询我知道使用 jq awk 和 cut grep 进行过滤 Distribut

SQLite - 从文件运行多行 SQL 脚本？

我的 user sql 文件中有以下 SQL CREATE TABLE user user id INTEGER PRIMARY KEY username varchar 255 password varchar 255 然而当执行以下命

在 ApachePOI 中使用什么来代替已弃用的 CellRangeAddress.valueOf

我想在该区域添加条件格式但我在教程中看到的一种方法已被弃用用什么来代替它样本 ConditionalFormattingRule rule2 sheetCF createConditionalFormattingRule Compar

选择相邻同级而不插入文本节点

由于悲惨的情况我收到这样的 HTML p Perform the following commands code gt cd foo code code gt adb shell code code ps code p 我需要使代码看起来

使用 Spring Data JPA 选择一列

有谁知道如何使用 Spring Data JPA 获取单个列我在 Spring Boot 项目中创建了一个如下所示的存储库但总是得到 cause null message PersistentEntity must not be nul

我可以在没有循环的情况下清理 numpy 数组吗？

也许没什么大不了的但遵循以下内容让我心碎 deltas data 1 data 1 有了这个 for i in range len deltas if deltas i lt 0 deltas i 0 if deltas i gt 100

我的自定义 SSL 验证逻辑处理异常 RemoteCertificateNameMismatch 的安全性如何？

我尝试将文件上传到我的域https vault veodin com https vault veodin com 托管在 webfaction com 当您打开此网址时浏览器会警告您名称不匹配因为 SSL 证书是为 webfactio

Ruby：使用 class_eval 定义常量只能通过 const_get 找到，但不能直接通过 :: Lookup 找到

给定一个 User 类 class User end 我想使用定义一个新常量 class eval So User class eval AVOCADO fruit 如果我尝试通过访问它User AVOCADO I get uninitia

分别处理spark中的多个目录

我在 HDFS 中有一个目录列表每个目录包含多个文件我的目标是将一个目录中的所有文件合并为一个文件但每个目录分别合并在 Spark 中执行此操作最快的方法是什么顺序迭代所有目录太慢所以我想并行进行一种解决方案可能是使用线程池

热门标签

蓝牙相关问题

ax210

软件测试理论

131

计算机网络基础知识

软件评测

中如何安装

flyingxu

cppblog

深度揭秘

汇总和解决办法

指定位置元素

之网络时间参数

之诊断时间参数

ISO15765

Handling

Ecu

BswM

debugging

0x19

ISO14229

诊断系列讲解

总线入门

模拟串口

140

Powered by Hwhale

分别处理spark中的多个目录

分别处理spark中的多个目录 的相关文章

随机推荐

热门标签

分别处理spark中的多个目录的相关文章