如何使用 PySpark 将 CSV 文件读取为数据帧时跳过行？

2024-03-16

我有一个 CSV 文件，其结构如下：

Header
Blank Row
"Col1","Col2"
"1,200","1,456"
"2,000","3,450"

我在阅读该文件时遇到两个问题。

我想忽略标题并忽略空白行
值中的逗号不是分隔符

这是我尝试过的：

df = sc.textFile("myFile.csv")\
              .map(lambda line: line.split(","))\ #Split By comma
              .filter(lambda line: len(line) == 2).collect() #This helped me ignore the first two rows

但是，这不起作用，因为值中的逗号被读取为分隔符，并且len(line)返回 4 而不是 2。

我尝试了另一种方法：

data = sc.textFile("myFile.csv")
headers = data.take(2) #First two rows to be skipped

这个想法是然后使用过滤器而不是读取标题。但是，当我尝试打印标题时，我得到了编码值。

[\x00A\x00Y\x00 \x00J\x00u\x00l\x00y\x00 \x002\x000\x001\x006\x00]

读取 CSV 文件并跳过前两行的正确方法是什么？

尝试使用 csv.reader 和 'quotechar' 参数。它将正确分割行。之后，您可以根据需要添加过滤器。

import csv
from pyspark.sql.types import StringType

df = sc.textFile("test2.csv")\
           .mapPartitions(lambda line: csv.reader(line,delimiter=',', quotechar='"')).filter(lambda line: len(line)>=2 and line[0]!= 'Col1')\
           .toDF(['Col1','Col2'])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

如何使用 PySpark 将 CSV 文件读取为数据帧时跳过行？的相关文章

过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统

随机推荐

pygtk glib.timeout_add()：如何判断计时器是否没有被销毁？

在我的应用程序中我使用一个函数来显示带有超时的 GtkInfoBars 如所述https stackoverflow com a 1309257 406281 https stackoverflow com a 1309257 40628
CSS：图像链接，悬停时更改

我有一个图像它是一个链接我想当用户将鼠标悬停在链接上时显示不同的图像目前我正在使用这段代码 a href http twitter com me title Twitter link div class sidebar poster
通过EntityFramework获取表的最新Value

我有一个包含多个字段的表每个字段都通过单独的 ViewModel 单独更新现在我想获取特定字段的最新值也许它已在我表的第五条记录中更新好吗现在我写的看起来像这样 public ViewResult ShowPiece var co
对数据库持久对象进行版本控制，您会如何？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案与数据库架构的版本控制无关与数据库交互的应用程序通常具有由许多表中的数据组成的域对象假设应用程序要支持这些域对象的 CVS 意义上的版本
使用 Bean Utils 填充 POJO 时设置字段的默认值

我正在尝试使用填充 POJO 的字段BeanUtilsBean populate object fieldNameVSfieldValueMap method 我的 POJO 看起来像 class POJO Integer intField
你能解决这个简单的 SQL 查询吗？

假设这是一个销售相机的网站这是我的实体表 Camera A simple camera Feature A feature like 6mp max resolution 1024x768 事情是在相机和功能之间我有一个多对多的关系所
在 laravel 4 中提交表单后重定向到联系人页面

提交详细信息后我想重定向回联系人页面我已经从论坛中查看了解决方案但找不到解决方案到目前为止这就是我所拥有的 Route post sendmail function Mail send emails auth mail array
如何使用Delphi/DSPack捕获帧而不将其显示在TVideoWindow上？

DSpack 具有播放 DirectShow 兼容视频设备并同时捕获视频帧的示例代码 TVideoWindow 附加到 FilterGraph 以显示视频 Figure 1 如果删除 TVideoWindow 则操作系统 Windows 将
具有可选 WHERE 选项的 Linq

我有一个 Net 函数它接受 3 个参数所有参数都是可选的像这样的事情 public List
覆盖 django-admin 编辑表单字段值以获取加密数据

我的数据库中有加密的值如何覆盖 django 的管理编辑表单以便字段可以显示解密的数据只是为了澄清我知道如何解密这些值我只需要知道如何将解密的值放入字段中是否有我可以使用的change view方法的django信号虽然可以覆盖模
如何计算 pandas 系列中的特定单词？

我正在尝试计算 pandas DataFrame 中的关键字数量如下所示 df pd read csv amazon baby csv selected words awesome great fantastic amazing love
Javascript Fetch api [对象对象]

为什么我尝试在下面运行的代码返回为 object object var request new Request data some json fetch request then function response return respo
如何将 React + NodeJS Express 应用程序部署到 AWS？

我有一个 React Webpack Babel Node Express 应用程序我想将其部署在 AWS 上我需要单独部署 React 和 Node Express 吗或者他们可以同时部署在一起吗 1 如果你有两个不同的项目例如一
如何在本机反应中使 ScrollView 水平

我正在使用 ScrollView 滚动列表我怎样才能使它水平它看起来垂直我也尝试用不同的视图进行总结但它不起作用 for eg
在 java 9 中处理 PrintGCApplicationStoppedTime 标志

我的应用程序正在使用 gc 标志 PrintGCApplicationStoppedTime 但是当我使用 Java 9 运行它时它失败并出现以下错误 Unrecognized VM option PrintGCApplicationSt
Apache Xalan 的替代 XSLT 处理器

我目前在 Java 应用程序中使用 Apache Xalan XSLT 处理器但我想使用一些支持使用扩展函数的替代解决方案 Xalan 似乎已经过时并且有问题我知道 Saxonixa Saxon 但它是闭源的有没有一些开源且运行良好的
IBM WebSphere 8 与 Axis2 Web 服务发生内存泄漏

将应用程序从 v6 迁移到 WebSphere v8 并开始出现内存泄漏主要嫌疑人是 org apache axis2 看起来每次应用程序调用 Web 服务时 WAS8 都会创建一个名为 ServiceClient 的对象并将其存储在名
通知中的待定意图不起作用

下面是我应该打开的代码块NotificationActivity当点击通知时但它不起作用 private void setNotification String notificationMessage Uri alarmSound get
angular2 等待 if 条件下的 observable 完成

我已经实现了这样的 if 语句 if this service check return true else 这个 if 条件等待后端的响应但在 observable 执行之前它会进入 else 语句并完成条件而不在开始时检查 if
如何使用 PySpark 将 CSV 文件读取为数据帧时跳过行？

我有一个 CSV 文件其结构如下 Header Blank Row Col1 Col2 1 200 1 456 2 000 3 450 我在阅读该文件时遇到两个问题我想忽略标题并忽略空白行值中的逗号不是分隔符这是我尝试过的 df s

如何使用 PySpark 将 CSV 文件读取为数据帧时跳过行？

如何使用 PySpark 将 CSV 文件读取为数据帧时跳过行？ 的相关文章

随机推荐

热门标签

如何使用 PySpark 将 CSV 文件读取为数据帧时跳过行？的相关文章