Pyspark：将 tar.gz 文件加载到数据框中并按文件名过滤

2023-12-02

我有一个包含多个文件的 tar.gz 文件。层次结构如下所示。我的目的是读取tar.gz文件，过滤掉其中的内容b.tsv因为它是静态元数据，其中所有其他文件都是实际记录。

gzfile.tar.gz
|- a.tsv
|- b.tsv
|- thousand more files.

通过 pyspark load，我可以将文件加载到数据帧中。我使用了命令：

spark = SparkSession.\
        builder.\
        appName("Loading Gzip Files").\
        getOrCreate()
input = spark.read.load('/Users/jeevs/git/data/gzfile.tar.gz',\
          format='com.databricks.spark.csv',\
          sep = '\t'

为了过滤，我添加了文件名

from  pyspark.sql.functions import input_file_name
input.withColumn("filename", input_file_name())

现在生成的数据如下：

|_c0 |_c1 |filename |
|b.tsv0000666000076500001440035235677713575350214013124 0ustar  netsaintusers1|Lynx 2.7.1|file:///Users/jeevs/git/data/gzfile.tar.gz|
|2|Lynx 2.7|file:///Users/jeevs/git/data/gzfile.tar.gz|

当然，文件字段填充有 tar.gz 文件，使得该方法毫无用处。更令人恼火的问题是，_c0 正在填充filename+garbage+first row values

此时，我想知道读取的文件本身是否变得奇怪，因为它是 tar.gz 文件。当我们执行此处理的 v1 时（spark 0.9），我们还有另一个步骤，将数据从 s3 加载到 ec2 框中，提取并写回 s3。我正在努力摆脱这些步骤。

提前致谢！

数据块不支持直接*.tar.gz迭代。为了处理文件，必须将它们解压缩到临时位置。数据块支持bash比能完成这项工作。

%sh find $source -name *.tar.gz -exec tar -xvzf {} -C $destination \;

上面的代码将解压所有带有扩展名的文件*.tar.gz在源位置到目标位置。如果路径是通过dbutils.widgets或静态中%scala or %pyspark，路径必须声明为环境变量。这可以实现在%pyspark

import os
os.environ[' source '] = '/dbfs/mnt/dl/raw/source/'

使用以下方法加载文件，假设内容在*.csv file:

DF = spark.read.format('csv').options(header='true', inferSchema='true').option("mode","DROPMALFORMED").load('/mnt/dl/raw/source/sample.csv')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pyspark：将 tar.gz 文件加载到数据框中并按文件名过滤的相关文章

Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test

随机推荐

通过指针枚举 NSString 字符

如何通过从中提取每个 unichar 来枚举 NSString 我可以使用characterAtIndex 但这比通过递增unichar 慢我在苹果的文档中没有看到任何不需要将字符串复制到第二个缓冲区的内容像这样的东西将是理想的 for
在java中监视目录和子目录的创建、修改和更改

我已经编写了一些代码来检测目录 C java newfolder 中的更改它运行良好我已经在下面给出了 import java nio file import java util List public class DirectoryW
如何使用友元函数在模板类之外重载运算符==？

我正在尝试编写一个重载的模板类运算符我知道如何在课堂上得到它 template
从分层对象存储读取/写入到分层对象存储 - SharePoint 2007

我创建了一个自定义计时器作业需要一些配置才能运行我正在尝试将配置另存为SPPersistedObject在分层对象存储中分层对象存储保存在 SharePoint 配置数据库中因此我在尝试使用SPWebApplication作为家长
默认字符串排序顺序

默认排序顺序是实现细节吗或者如何选择默认比较器这让我想起了建议不要将哈希码存储在数据库中下面的代码是否保证以相同的顺序对字符串进行排序 string randomStrings Hello There World The Secre
Nginx 从多部分/表单数据中删除内容

我有两个 Nodejs 应用程序位于 nginx 反向代理后面这是我的 nginx 配置 main api location proxy pass http localhost 3000 chat api location socket
如何使用 Facebook 的 API 获取 Facebook 上共同好友的列表？

我正在尝试获取我自己和另一个用户的共同朋友列表但我在文档中找到的 API 都不起作用要么我收到一些奇怪的权限错误我只能获取我的朋友列表而没有其他用户要么我收到以下错误 Fatal error Call to a member fun
吉特。如何使用已更改的文件创建存档？

保持文件结构例如git archive git archive将文件路径作为参数因此您可以执行以下操作 git diff name status commit1 commit2 awk if 1 D print 2 xargs git
如何让 Rails 返回具有正确数据类型而不是字符串的 SUM(columnName) 属性？

假设以下形式的查询 operatingExpenses Expense find all select gt categories activityType categories name heading sum amount totalA
我应该使用 CSS :disabled 伪类还是 [disabled] 属性选择器还是这是一个意见问题？

我正在尝试设置禁用输入的样式我可以用 myInput disabled or myInput disabled 属性选择器是现代 CSS3 方式以及未来的发展方向吗我曾经使用伪类但我找不到任何关于它们是否是旧方式并且不受支持或者它们是
如何在Python Selenium中逐步向下滚动

大家好我是 Selenium 和 Python 的新手我只是在抓取网站帕加尔盖网站我知道如何向下滚动到页面底部但我需要的是逐步向下滚动以便 Selenium 单击所有阅读更多按钮但我不知道如何像这样逐步向下滚动所以我像下面
使用 geom_tile 清理地图

感谢本网站上一些用户的帮助我能够使用 geom point 获得一些数据的漂亮地图获得州界的边界但是现在我正在尝试清理它因为我有更多年的时间来绘制并希望确保情节正常工作并提供良好的信息经过进一步的研究似乎 geom tile
检查数据库中表是否存在时出现问题

基本上我有我的 MySQL dbname test 和我的表名称 page 我想使用 php PDO 创建一个查询来检查表 page 是否存在于我的数据库 test 中我已经尝试过这两件事但它确实有效第一个例子总是告诉我它不存在即使
在 JSP 中使用 struts 2 比较日期

我想使用比较两个日期Struts2 One is returned from the backend test currentDate 2012 11 15 The other one I just set 2014 10 19 我如何比较
move_uploaded_file(...): 无法打开流: 没有这样的文件或目录

我尝试使用 PHP 和 MySQL 以及临时文件夹将图像插入数据库中我使用 laravel 这是我的控制器 if isset FILES img masc img FILES img masc name ruta FILES img ma
使用 Python 的 matplotlib 3D API 绘制轮廓的问题

我正在尝试做类似的事情this文档中的 3D 示例但使用点云而不是光滑表面该示例将 2D 轮廓投影到三个坐标平面中的每一个上这表明我能够在 xy 平面上做到这一点当我尝试在其他两个平面上做同样的事情时我得到的要么是一个奇怪的轮廓塌
JWT 身份验证，Authorize 属性中定义的角色将被忽略

在努力实施的同时基于角色的身份验证 using JWT作为默认身份验证方案我遇到了一种情况其中定义的角色Authorize属性被忽略允许任何请求使用有效的令牌通过即使不在这些角色中有趣的是具有相同定义的自定义要求的其他策略A
给定并行列表，如何对一个列表进行排序，同时以相同的方式排列（重新排列）另一个列表？

假设我有 list1 3 2 4 1 1 list2 three two four one one2 Calling list1 sort 将对它进行排序结果是 1 1 2 3 4 然而我能得到list2与此同步重新排列以获得这样的结
如何使用 Gremlin 提高最短路径的性能？

我正在使用 JanusGraph 和 Gremlin 以及this数据集包含 2 6k 个节点和 6 6k 个边两侧各 3 3k 个边我已经运行查询 10 分钟但没有找到最短路径使用 Gephi 最短路径几乎是瞬时的这是我的查询 g
Pyspark：将 tar.gz 文件加载到数据框中并按文件名过滤

我有一个包含多个文件的 tar gz 文件层次结构如下所示我的目的是读取tar gz文件过滤掉其中的内容b tsv因为它是静态元数据其中所有其他文件都是实际记录 gzfile tar gz a tsv b tsv thousand

Pyspark：将 tar.gz 文件加载到数据框中并按文件名过滤

Pyspark：将 tar.gz 文件加载到数据框中并按文件名过滤 的相关文章

随机推荐

热门标签

Pyspark：将 tar.gz 文件加载到数据框中并按文件名过滤的相关文章