如何从 Dataframe 中删除页眉和页脚？

2023-11-30

我正在读取一个文本（不是 CSV）文件，其中包含页眉、内容和页脚，使用

spark.read.format("text").option("delimiter","|")...load(file)

我可以通过以下方式访问标题df.first()。有没有什么接近的df.last() or df.reverse().first()?

样本数据：

col1|col2|col3
100|hello|asdf
300|hi|abc
200|bye|xyz
800|ciao|qwerty
This is the footer line

处理逻辑：

#load text file
txt = sc.textFile("path_to_above_sample_data_text_file.txt")

#remove header
header = txt.first()
txt = txt.filter(lambda line: line != header)

#remove footer
txt = txt.map(lambda line: line.split("|"))\
    .filter(lambda line: len(line)>1)

#convert to dataframe
df=txt.toDF(header.split("|"))
df.show()

输出是：

+----+-----+------+
|col1| col2|  col3|
+----+-----+------+
| 100|hello|  asdf|
| 300|   hi|   abc|
| 200|  bye|   xyz|
| 800| ciao|qwerty|
+----+-----+------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

apachesparksql

如何从 Dataframe 中删除页眉和页脚？的相关文章

过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
无法在 AWS Glue PySpark 开发终端节点中正确运行脚本

我已经配置了一个 AWS Glue 开发终端节点并且可以在 pyspark REPL shell 中成功连接到它像这样https docs aws amazon com glue latest dg dev endpoint tutor
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存

随机推荐

无法连接到数据库服务器 mysql workbench

我正在尝试连接到 mysql 工作台但出现以下错误错误信息无法连接到数据库服务器用户 root 从主机到服务器的连接尝试失败 127 0 0 1 3306 无法打开数据库请 1 检查mysql是否在服务器127 0 0 1上运行
如何在MvvmCross中绑定View的layout_weight？

绑定到 View 或任何其他 Android 控件权重的最简单方法是什么因为这个属性没有setter 所以我尝试了自定义绑定但id似乎不起作用 public class ViewWeightCustomBinding MvxAndro
如何在 Watir-WebDriver 中关闭 PhantomJS 的日志记录？

我在 ruby 1 8 watir 代码中看到很多 PhantomJS 的日志信息即 INFO 消息我该如何将其关闭我从谷歌搜索中得到了Java代码但没有得到Ruby代码 Java PhantomJSDriver 禁用控制台中的所有
Azure 服务主体：为服务主体授予 appRoleAssignment 会更新原始权限的状态

我正在尝试使用 Microsoft 图形 API 授予管理员对分配权限的同意我执行的步骤如下创建定义了 appRoles 数组的应用程序使用 appId 创建服务主体为服务主体授予 appRoleAssignment 我运行了 ht
在 C 中创建字符串的方法有什么区别？

C语言中这两种形式的字符串变量有什么区别 char string1 char string2 还有其他方法吗非常感谢 char string1 foo string1 是一个指向字符串文字的指针为了便于论证它指向存储在程序的只读数据段
向量的向量有哪些问题？

I ve read that a vector of vectors is bad given a fixed 2nd dimension but I cannot find a clear explanation of the probl
iPhone：主屏幕和 App Store 的图标不同

我想知道 iPhone 上的应用程序图标是否与 Apple App Store 中大版本中显示的图标略有不同这里简短地讨论过成功提交 AppStore 的提示但我想确定是否有人有更多这方面的经验举个例子纽约时报在其应用程序图标中
SQL 父/子 CTE 排序

我正在尝试创建一个论坛设置您可以在其中对特定帖子发表评论并将回复按日期顺序显示在父级的正下方父级下面只会有一个子级别这是示例数据集 ID ParentID Datestamp 12 NULL 2013 03 01 1 00pm 13
字典中 FIFO 顺序的 pythonic 方式

我正在尝试用 python 填充字典但我想保留键进入时的顺序完全像列表一样 FIFO 即可做到这一点例如我读了一个名为 Animals txt 的文件其中包含以下信息 animal tconservation status n d
如何在启动屏幕上报告将程序集加载到 .Net 中的当前 AppDomain 的进度？

我在显示程序集加载到 AppDomain CurrentDomain 的进度时遇到了一些困难我想要做的是显示一个带有进度条的启动屏幕我希望能够在每个程序集加载到 AppDomain 中的内存中时更新此进度条这样用户将有一个关于应用程
JPA脏检查

我知道 JPA 实现者如 Hibernate 监视附加到持久性上下文的实体如果任何实体的任何字段发生更改则更改会更新到数据库我的问题是 JPA 如何跟踪更改实体不会被拦截被代理所以可以肯定它不是通过 setter 的拦截它是

如何从 Dataframe 中删除页眉和页脚？

如何从 Dataframe 中删除页眉和页脚？ 的相关文章

随机推荐

如何从 Dataframe 中删除页眉和页脚？的相关文章