Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据

2023-11-29

我想处理一个巨大的订单 CSV 文件 (5GB)，在文件开头有一些元数据行。标题列在第 4 行中表示（以“h,”开头），后跟另一个元数据行，描述可选性。数据行以“d”开头，

m,Version,v1.0
m,Type,xx
m,<OtherMetaData>,<...>
h,Col1,Col2,Col3,Col4,Col5,.............,Col100
m,Mandatory,Optional,Optional,...........,Mandatory
d,Val1,Val2,Val3,Val4,Val5,.............,Val100

加载文件时是否可以跳过指定的行数并对数据集使用“inferSchema”选项？

Dataset<Row> df = spark.read()
            .format("csv")
            .option("header", "true")
            .option("inferSchema", "true")
            .load("\home\user\data\20170326.csv");

或者我是否需要定义两个不同的数据集并使用“ except(Dataset other)”来排除行被忽略的数据集？

您可以尝试设置"comment"选项"m"，有效地告诉 csv 阅读器跳过以"m"特点。

df = spark.read()
          .format("csv")
          .option("header", "true")
          .option("inferSchema", "true")
          .option("comment", "m")
          .load("\home\user\data\20170326.csv")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

apachespark20

Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据的相关文章

如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes

随机推荐

按属性在对象数组数组中查找重复项的最短方法

嗨我有一系列对象每个对象都有一个对象数组我需要找到在特定属性中具有相同值的内部对象的重复项我在循环内创建了一个循环并使用 include 有没有更短的方法来做到这一点 Verify that there are no dupli
UILabel 层cornerRadius 对性能产生负面影响

我创建了一个文档视图在角落显示页码页码是一个具有半透明背景色的uilabel 并且有一个角半径使用cornerRadius的财产view s layer 我已将其放置在UIScrollView 然而这会使滚动变得不稳定如果我删除c
你能使用 Array.flatMap 在 Javascript 中返回 n 选择 k 组合吗？

例如这是 5 选择 2 var array 0 1 2 3 4 var result array flatMap v i gt array slice i 1 map w gt v w console log result 我怎样才能使用
使用自定义SurfaceView和线程进行Android游戏编程（示例）

我正在尝试使用 SurfaceView 但是lockCanvas null 令人困惑当我退出活动时应用程序冻结另外即使我使用的教程运行得很好也没有显示任何内容而且我不明白我做错了什么请帮忙解决办法大概就是这样setWillNo
将多个 ID 映射到 Active Directory 中的电子邮件地址并将结果输出到单个文件

我正在尝试找到一种方法将多个用户的 ID 映射到 Active Directory AD 中的关联电子邮件地址然后将输出附加到 txt 文件中最终生成包含电子邮件地址列表的单个文件通过利用 PowerShell AD 工具的以下命令
如何从 Team Foundation Server 删除测试用例

如何从 Team Foundation Server 中删除测试用例我已采取以下步骤首先我安装了 Team Foundation Server Power Tools这个网站其次我在 VS 命令窗口中输入以下内容 witadmin
“SQLSTATE[23000]：违反完整性约束”，具有有效约束

我正在使用 Symfony 2 和 Doctrine 我有 4 个班级国家地区县和地方 District 有一个 Country 外键县有一个区外本地有一个区域的外键问题是当插入一个县使用数据装置时我收到错误 SQLST
字典Python中重复键的值列表[重复]

这个问题在这里已经有答案了如果这个问题已经在这里探讨过请提前道歉我在这里查看了不同的答案但找不到我需要的东西我的目标是创建一本这样的字典 a 10 9 10 10 b 10 9 1 0 c 0 5 0 1 and so on 我拥
从 jQuery-UI 选项卡获取目标 URL

我正在开发一个大量使用 jQuery 选项卡和 Ajax 的项目将数据加载到选项卡本身很简单但选项卡中的数据需要通过位于选项卡 div 外部的选择框进行过滤这就是我的问题开始的地方假设我的选项卡对 URL tab1 html 进行
使用未弃用的 64 位代码替换 CMNewProfileSearch

我有现有的代码使用CMNewProfileSearch查找然后迭代系统上的颜色配置文件获取它们的名称和完整路径很遗憾 CMNewProfileSearch在 Mac OS X 10 5 中已弃用并且在编译 64 位应用程序时也不可用
如何在 Python 中使用服务帐户凭据创建 Google 表格？

我创建Service Account Credentials here并得到 json 密钥service json 然后我尝试 from google oauth2 import service account SCOPES https
最新 Chrome 85 更新后的 CORS 问题

我是这里的新用户因此如果我违反了任何规则请提前道歉这是我面临的问题需要建议我有一个 Chrome 扩展它与 Gmail 配合使用并通过 Rails 应用程序的 Phusion Passenger 服务器使用在 nginx 上
如何在 R 中的字符串中添加缺少的右括号？

我想为具有左括号但缺少右括号的字符串添加右括号例如我想将狗在公园散步 ABC 修改为狗在公园散步 ABC 我发现了类似的问题和解决方案但它是在Python中如何在Python中的字符串中添加缺少的右括号我尝试修改R中使用的代码
首页“/”上出现 NotAllowedError

我尝试设置主页供用户登录或未登录但我得到了NotAllowedError 这适用于本地服务器不过在真正的公共服务器上似乎不起作用 Does NotAllowedError是指遵守 Google App Engine 标准不将登录信
（单击）如果来自函数，则在数组类型的元素上的 *ngFor 内部断开

in plnkr我重现了一个奇怪的边缘情况它可能取决于 pixjs 或 webgl 因为它在使用 pixjs 时发生请注意如何单击列表中的所有元素但是一旦开始使用 pixij 只需单击按钮单击就会停止对数组类型的元素起作用这odd
我怎样才能减少 if else 语句[关闭]

Closed 这个问题是基于意见的目前不接受答案我编写了一个函数将和 and 放在三个链接之间我怎样才能减少 if else 语句在javascript中如果计数不为零则我得到计数这意味着链接必须显示否则应该隐藏在以下
System.out 对象属于 System 类还是 PrintStream 类？ [关闭]

很难说出这里问的是什么这个问题模棱两可含糊不清不完整过于宽泛或言辞激烈无法以目前的形式合理回答如需帮助澄清此问题以便重新打开访问帮助中心我是编程新手刚刚开始学习 Java 我很好奇 System out 对象属于 Syst
错误：JAVA_HOME 未正确定义执行 maven

我安装了java并设置了路径环境当我运行时echo JAVA HOME在终端中我得到以下输出 usr lib jvm java 7 oracle jre bin java 我也安装了apache maven并改变了environment文
R：按组计算 Pearson 相关性和 R 平方

我正在尝试扩展问题的答案R 过滤数据并计算相关性要获得一年中每个月 1 一月的温度和湿度的相关性我们必须对每个月执行相同的操作 12 次 cor airquality airquality Month 1 c Temp Humidit
Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据

我想处理一个巨大的订单 CSV 文件 5GB 在文件开头有一些元数据行标题列在第 4 行中表示以 h 开头后跟另一个元数据行描述可选性数据行以 d 开头 m Version v1 0 m Type xx m

Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据

Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据 的相关文章

随机推荐

热门标签

Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据的相关文章