将 tar.gz 存档中压缩的多个文件读入 Spark [重复]

2024-03-07

我正在尝试从压缩成 tar.gz 文件的几个 json 文件创建 Spark RDD。例如我有3个文件

file1.json
file2.json
file3.json

这些都包含在archive.tar.gz.

我想从 json 文件创建一个数据框。问题是 Spark 没有正确读取 json 文件。使用创建 RDDsqlContext.read.json("archive.tar.gz") or sc.textFile("archive.tar.gz")导致乱码/额外输出。

Spark 中是否有某种方法可以处理包含多个文件的 gzip 压缩档案？

UPDATE

使用答案中给出的方法从 Spark 中的压缩中读取整个文本文件 https://stackoverflow.com/questions/36604145/read-whole-text-files-from-a-compression-in-spark我能够让事情运行起来，但这种方法似乎不适合大型 tar.gz 档案（>200 mb 压缩），因为应用程序会因大型档案大小而阻塞。作为我正在处理的一些档案，其范围可达2 GB压缩后我想知道是否有一些有效的方法来处理这个问题。

我试图避免提取档案然后将文件合并在一起，因为这会很耗时。

给出了一个解决方案从 Spark 中的压缩中读取整个文本文件 https://stackoverflow.com/questions/36604145/read-whole-text-files-from-a-compression-in-spark。使用提供的代码示例，我能够创建一个DataFrame从压缩档案中，如下所示：

val jsonRDD = sc.binaryFiles("gzarchive/*").
               flatMapValues(x => extractFiles(x).toOption).
               mapValues(_.map(decode())

val df = sqlContext.read.json(jsonRDD.map(_._2).flatMap(x => x))

此方法适用于相对较小大小的 tar 存档，但不适用于较大的存档大小。

解决该问题的更好方法似乎是将 tar 存档转换为 HadoopSequenceFiles，它们是可分割的，因此可以在 Spark 中并行读取和处理（与 tar 存档相反）。

See: 一百万个小文件——Stuart Sierra 的数字题外话 https://stuartsierra.com/2008/04/24/a-million-little-files.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 tar.gz 存档中压缩的多个文件读入 Spark [重复] 的相关文章

将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
如何在Scala中表达这个类型？存在类型类（即隐式）限制吗？

我正在使用 Play 框架的 JSON 库它使用类型类来实现Json toJson功能 http www playframework org documentation api 2 0 4 scala index html play ap
MemoryStream 中的 GZipStream 仅返回几百个字节

我正在尝试下载一个几百 MB 的 gz 文件并将其转换为 C 中的一个很长的字符串 using var memstream new MemoryStream new WebClient DownloadData url using GZi
Scala 将递归有界类型参数（F 界）转换为类型成员

我将如何转换 trait Foo A lt Foo A 给类型成员也就是说我想要以下内容 trait Foo type A lt Foo type A 但我遇到了困难因为名称 A 已在类型细化中使用这个问题是类似的并衍生自通过类
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
将当前类作为 scala 中的参数传递

如何传递当前类作为参数在java中我们这样做 mymethod this class or mymethod MyClass class 如何将 scala 当前类传递给此方法 this getClass or classOf MyCla
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
xsbt 插件 1.0.0-M7 和 scalatra

我尝试在我的 scalatra 项目中将 xsbt 插件升级到 1 0 0 M7 但 scalatra 似乎与此版本不兼容当我尝试重新加载项目时出现以下错误我尝试过 scalatra 2 3 0 版本问候德斯 java lang
Akka中有轻量级的actor吗？

我的用例非常简单在两个对象之间交换少量现在我正在从 Scala Actors 迁移到 Akka 但是我再也找不到那些轻量级 Actors 使用Akka 我不仅需要为Actor创建创建ActorSystem Props 还需要照顾Acto
需要澄清令人困惑的 Http4s 消息类型 `Response[F]` / `Request[F]`

我很难理解为什么Request and Response参数化为F 类似的东西是猫效应数据类型资源从文档中 https typelevel org cats effect docs std resource https typelevel
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
SBT插件——编译前执行自定义任务

我刚刚编写了我的第一个 SBT 自动插件它有一个生成设置文件的自定义任务如果该文件尚不存在当显式调用任务时一切都会按预期工作但我希望在使用插件编译项目之前自动调用它无需项目修改其 build sbt 文件有没有办法实现这一点
Scala apply 方法调用，因为括号与隐式参数冲突

Cay Horstmann 的书 Scala for the Impressive 中有一段关于 apply 方法的注释有时表示法会与另一个 Scala 功能发生冲突隐式参数例如表达式 Bonjour sorted 3 产生错误
Map 和 Set 的实际类（不是抽象类，也不是特征类）是什么？

在 Scala 中映射和集合文字可以通过以下方式创建 val m Map 1 gt a 以及引用的类型m字面意思都是Map Int String 然而 scala文档表明Map实际上是一个特征具有需要实现才能实例化的抽象成员 scala
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
在 AKKA 中，对主管调用 shutdown 是否会停止其监督的所有参与者？

假设我有一位主管连接了 2 位演员当我的应用程序关闭时我想优雅地关闭这些参与者调用supervisor shutdown 是否会停止所有参与者还是我仍然需要手动停止我的参与者 gracias 阻止主管 https github co
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts

随机推荐

如果java spring cors策略被阻止，如何访问后端？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我使用 Java spring 作为后端当前端到达我的端点时他会收到错误从源 http localhost 300
如何扁平化查询结果？

用一个例子让大家很容易理解 https developer github com v4 explorer https developer github com v4 explorer 查询观众信息 query viewer follower
材质 UI 选择设置值始终超出范围

我有一个 MaterialUI Select 代码并且我正在动态处理 value 参数我的问题是当我设置任何值时它总是说它超出范围甚至在有效值中显示该值 SelectInput js 291 Material UI you hav
投放到某个事件（而不是日历） - 如何识别事件？

我已经成功实现了将 jquery ui 元素拖动到我的 fullCalendar 上问题是我想要放置的不是日历本身而是日历上显示的特定事件以便将放置的项目添加到该事件中缺少的部分是如何识别当我放下鼠标时发生的事件 drop fun
如何将控制台输出写入文本文件

我是编程新手我在网页上搜索了这个问题的答案并尝试了很多可能性但没有成功我目前已成功将电位计连接到我的树莓派并在控制台上获取值但我不知道如何将这些值保存到文本文件中这是我的代码 usr bin python import spid
在 makefile 中设置环境变量

我有一个像这样的 makefile setup setenv var1 var1 setenv var2 var2 task1 setup source task1 csh task2 setup source task2 csh 我使用以
在 Postgres 中查询失败但在 H2 中工作（Postgres 模式）

我经常发现自己想要为数据库查询编写自动化测试我当前的用例是 Spring MVC Web 应用程序和 Postgres 数据库据我所知我有两个选择建立一个实际的 Postgres 实例并使用测试数据集对其进行初始化利用内存数据库
使用自动布局时如何制作从一个 UIView 到另一个 UIView 的翻转动画？

我总是使用以下代码在一个视图和另一个视图之间制作翻转动画 UIView transitionFromView firstView toView secondView duration 0 6 options UIViewAnimationO
+ 顶部边框是否由任何标准（HTML 或 CSS）定义的“擦除”行为？

早在 IE6 时代我曾经通过创建一个 HTML 来模拟 Windows 风格的分组框参见示例 div有边框并定位span将文本放在边框上并使用纯色背景来擦除框边框将组文本放置在框的顶部或底部很简单这种技术效果很好除非背景不是
合并实体框架中的迁移条目

我有一个 Entity Framework 6 CF 项目其中已经进行了一些迁移该模型现已稳定无需保留已存在的迁移历史记录有没有办法重置模型并将所有迁移命令合并到初始迁移中例如第一次迁移添加一列而第二次迁移添加唯一的非聚集索引
模拟与道具 - 使用 Jest 和 Enzyme 进行更改事件

我正在尝试对多个 onChange 事件运行测试现在测试通过了以下代码但不影响其覆盖率意味着不正确 wrapper find Datasubjects props onChange City target value test 但如果
计算iphone中两点之间的距离

我正在创建一个应用程序要求用户输入两个地方邮政编码我的应用程序将计算这两点之间的行驶距离并输出结果用户可以选择添加航路点我想我必须使用谷歌地图 API 并获取包含结果的 xml 文件然后解析该 xml 文件任何人都可以帮助我
swf上传302错误

所以我有这个 javascript 代码用于将 swfuploader 加载到页面上 http code google com p swfupload http code google com p swfupload swfuPubThum
无法使用自制 perl 5.32 在 M1 Mac 上安装 XML::Parser

我的新的基于 M1 的 Mac 具有 Apple 的内置 Perl 版本 v5 28 2 我使用自制程序安装了最新的 perl 5 32 0 并配置了 local lib 选项以便 cpan 模块安装在 perl5 中所有这些在很大程度
有什么方法可以获取 Cocoa for OS X 中应用程序的运行时间吗？

我想在我的应用程序中与时间一起操作我首先考虑的是系统的uptime 由于这看起来很难实现我很好奇是否有一种简单有效的方法来获取我的应用程序的运行时间更好的时间以毫秒或时间间隔为单位获得应用程序运行时间近似值的最简单方法是在应用程序委
Clearcase 删除目录

我有一个像这样的目录结构 root dir dir1 dir2 file1 txt file2 txt sub dir file3 txt file4 txt 最好的删除方法是什么dir2及其所有子元素都使用rmname 我可以简单地执行
使用 Process.Start()，当 /K 参数不起作用时如何保持 cmd 提示符打开？ [复制]

这个问题在这里已经有答案了可能的重复有什么方法可以在 Process Start 期间保持外部命令窗口打开 https stackoverflow com questions 905352 any way to keep an exte
jar 编辑并以简单的方式重新编译

我有一个名为 ScreenCapture jar 的 jar 文件 I use http jd benow ca http jd benow ca 里面有什么我什至下载了jd gui 这就是它向我展示的我可以看到 ScreenCaptu
C#中如何将数字四舍五入到小数点后两位？

我想使用Math Round功能以下是一些示例 decimal a 1 994444M Math Round a 2 returns 1 99 decimal b 1 995555M Math Round b 2 returns 2 00
将 tar.gz 存档中压缩的多个文件读入 Spark [重复]

这个问题在这里已经有答案了我正在尝试从压缩成 tar gz 文件的几个 json 文件创建 Spark RDD 例如我有3个文件 file1 json file2 json file3 json 这些都包含在archive tar gz

将 tar.gz 存档中压缩的多个文件读入 Spark [重复]

将 tar.gz 存档中压缩的多个文件读入 Spark [重复] 的相关文章

随机推荐

热门标签