如何从 Dataframe 中删除页眉和页脚?

2023-11-30

我正在读取一个文本(不是 CSV)文件,其中包含页眉、内容和页脚,使用

spark.read.format("text").option("delimiter","|")...load(file)

我可以通过以下方式访问标题df.first()。有没有什么接近的df.last() or df.reverse().first()?


样本数据:

col1|col2|col3
100|hello|asdf
300|hi|abc
200|bye|xyz
800|ciao|qwerty
This is the footer line

处理逻辑:

#load text file
txt = sc.textFile("path_to_above_sample_data_text_file.txt")

#remove header
header = txt.first()
txt = txt.filter(lambda line: line != header)

#remove footer
txt = txt.map(lambda line: line.split("|"))\
    .filter(lambda line: len(line)>1)

#convert to dataframe
df=txt.toDF(header.split("|"))
df.show()

输出是:

+----+-----+------+
|col1| col2|  col3|
+----+-----+------+
| 100|hello|  asdf|
| 300|   hi|   abc|
| 200|  bye|   xyz|
| 800| ciao|qwerty|
+----+-----+------+
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 Dataframe 中删除页眉和页脚? 的相关文章

随机推荐