如何在 Spark 中从文本文件创建 DataFrame

2024-03-23

我在 HDFS 上有一个文本文件，我想将其转换为 Spark 中的数据帧。

我正在使用 Spark 上下文加载文件，然后尝试从该文件生成各个列。

val myFile = sc.textFile("file.txt")
val myFile1 = myFile.map(x=>x.split(";"))

完成此操作后，我正在尝试以下操作。

myFile1.toDF()

我遇到了一个问题，因为 myFile1 RDD 中的元素现在是数组类型。

我该如何解决这个问题？

Update- 作为火花1.6，您可以简单地使用内置的csv数据源：

spark: SparkSession = // create the Spark Session
val df = spark.read.csv("file.txt")

您还可以使用各种选项来控制 CSV 解析，例如：

val df = spark.read.option("header", "false").csv("file.txt")

对于 Spark 版本：最简单的方法是使用Spark-csv https://github.com/databricks/spark-csv- 将其包含在您的依赖项中并遵循自述文件，它允许设置自定义分隔符（;），可以读取 CSV 标头（如果有），并且可以推断架构types（需要额外扫描数据）。

或者，如果您知道模式，您可以创建一个代表它的案例类，并将 RDD 元素映射到此类的实例，然后再转换为 DataFrame，例如：

case class Record(id: Int, name: String)

val myFile1 = myFile.map(x=>x.split(";")).map {
  case Array(id, name) => Record(id.toInt, name)
} 

myFile1.toDF() // DataFrame will have columns "id" and "name"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

apachesparksql

RDD

如何在 Spark 中从文本文件创建 DataFrame 的相关文章

将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
Scala 对大数的阶乘有时会崩溃，有时不会

以下程序经过编译和测试有时返回结果有时充满屏幕 java lang StackOverflowError at scala BigInt apply BigInt scala 47 at scala BigInt equals BigI
删除 python vaex 中的重复行

我正在使用 python vaex 但我不知道如何删除数据框中的重复行例如在 pandas 中存在以下方法drop duplicates vaex中有没有类似的功能似乎还没有但我们应该在某个时候期待这个功能其间有vaex创始人的
如何查找另一列的不同行中具有多个值的列值的总长度

有没有办法找到同时有Apple和Strawberry的ID 然后求总长度和只有苹果的ID 和只有草莓的IDS df ID Fruit 0 ABC Apple lt ABC has Apple and Strawberry 1 ABC St
在 case 语句中间使用 unapply 的对象

scala gt object Test def unapply L R v L R Some v defined object Test scala gt 1 2 match case 1 Test 2 gt println First
实现一个scala集合，以便map、filter等产生正确的类型

我正在尝试实施一个默认值映射 https stackoverflow com questions 3187411 designing a convenient default valued map in scala 我想要过滤器地图等De
为 pandas 数据框中的两列创建邻接矩阵

我有一个以下形式的数据框 index Name A Name B 0 Adam Ben 1 Chris David 2 Adam Chris 3 Ben Chris 我想获得邻接矩阵Name A and Name B ie Adam Ben
运行 JAR 时“JCE 无法验证提供者 BC”

在我的 scala 项目中我使用 org bouncycastle bcprov jdk14 1 51 用于密码学如果它在 Scala IDE 中测试我的项目它工作得很好但是一旦我制作了一个 JAR 并尝试通过以下方式运行它java
'val' 或 'var'，可变还是不可变？

我可以定义一个变量通过var 是不可变的 var x scala collection immutable Set aaaaaa bbbbbb println x isInstanceOf scala collection immutab
从 data.frame 创建新列

我有一个长格式的数据集其中测量时间嵌套在 Networkpartners NP 中而 Networkpartners NP 又嵌套在人员 ID 中下面是它的示例真实数据集有数千行 ID NP Time Outcome 1 11
Scala：获取 Map.head 元素的键（和值）

让我们想象一下以下不可变的 Map val foo Map 10 ten 100 one hundred 我想获得第一个元素的密钥 foo head获取第一个元素但接下来呢我还想要这个元素的值即十设置键值对 val key va
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
Pandas DataFrame styler - 如何将 pandas dataframe 设置为 Excel 表的样式？

如何将 pandas 数据框设置为 Excel 表格替代行颜色样品样式样本数据 import pandas as pd import seaborn as sns df sns load dataset tips 如果你的最终目标是拯
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
Scala 2.10，它对 JSON 库和案例类验证/创建的影响

显然在 Scala 2 10 中我们得到了改进的反射这将如何影响 lift json jerkson sjson 和朋友此外我们能否期望在不久的将来 Scala 中会出现内置的 JSON 语言功能如 Groovy 的出色 GSON
尝试 .Split 时出现“列必须与键长度相同”错误

下面的代码在 Python 3 8 10 中运行良好但在 Python 3 10 中无法运行知道可能是什么问题吗 import pandas as pd import requests url https coinmarketcap c
如何将函数应用于多个 pandas 数据框

我有多个数据框 df1 df2 df3 dfn 它们具有相同类型的数据但来自无法连接的不同描述符组现在我需要手动将相同的函数应用于每个数据帧如何将相同的函数应用于多个数据框 pipe https pandas pydata org p
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
如何 json_normalize() df 中的特定字段并保留其他列？ [复制]

这个问题在这里已经有答案了这是我的简单示例我的实际数据集中的 json 字段非常嵌套因此我一次解压一层我需要在 json normalize 之后保留数据集上的某些列 https pandas pydata org docs ref
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re

随机推荐

如何创建带有背景图像的倾斜透明形状？

I want to achieve something like this it has a background image https imgur com cSde7ff I only able to make a slanted di
由于 Javadoc 错误而无法构建 Maven 项目？

有没有人遇到过类似的 Maven 错误如下所示由于以下错误我无法构建我的项目在我开始编写代码之前一切都工作正常我什至没有处理下面定义的接口它似乎与 Javadoc 有关 ERROR Failed to execute goal
Trinidad/ADF Faces、文件上传、EOFException

我在 Tomcat 8 5 服务器上的 web xml version 3 1 中使用 JSF 2 3 Mojarra 2 3 3 Trinidad 2 2 1 及其文件上传组件 tr inputFile 我收到以下异常并且没有有效的上传
Winforms 窗体间切换

我现在用的是winform 我有主表单 form1 还有一个打开 form2 的按钮当我打开 form2 时我希望 form1 消失当用户单击 form2 上的 x 按钮时我希望它关闭并返回到 form1 我不想使用模态窗口 pri
进程资源不受 setrlimit 限制

我编写了一个简单的程序将其数据大小限制为 65Kb 并验证相同的情况我分配了超过 65Kb 的虚拟内存从逻辑上讲如果我执行了所有正确的操作如下所示那么 malloc 调用应该会失败不是吗 include
gcc(windows + MinGW) 是否在 inttypes.h 中定义了 SCNd8、SCNu8？

include
顺风旋转木马

我想使用 Tailwind CSS 制作一个轮播但我无法将一些纯 CSS 转换为顺风 CSS 如果无法将纯 CSS 转换为 tailwind CSS 请告诉我如何在我的 React 项目中添加该 CSS 我在用REACT 请帮我解决这个问
如何在 Laravel 4 中构建带有子应用程序的平台？

我需要开发几个具有共同功能和流程的网站唯一会发生巨大变化的是CSS 甚至HTML也会通用我在 Laravel 4 中组装这个结构时遇到了麻烦因为我仍然是该框架的初学者我需要有一个所有子项目都将继承的超级项目我需要能够在特定的
如何通过Java执行cmd命令

我正在尝试通过 Java 执行命令行参数例如 Execute command String command cmd c start cmd exe Process child Runtime getRuntime exec command
WooCommerce 显示自定义列

我想在 WooCommerce 后端显示一个附加列在订单概述中该列应包含我定义的自定义字段交货日期这个怎么做如果有人仍然需要它有关如何在 Woocommerce 订单列表中添加新列的说明无需取消设置默认列只需将其添加到您的f
针对低内存使用情况，康威生命游戏的有效实现是什么？

我正在寻找一种快速且节省内存的方法来实现康威的生命游戏限制 96x128 板大约 2kB 可用 RAM 和 52MHz 处理器请参阅此处的技术规格 http www getinpulse com features http www g
在Java中生成随机唯一的双精度值

我需要一个 64 位浮点随机数的集合并且它们应该是不同的是否有为此的库例程或者我应该手动搜索重复项实际上让数字不接近比一些非常小的常数更重要图书馆也有这样的例程吗您可以使用streams为了那个原因 double array
使用 Swift 构建 Cocoapod 并依赖于 Objective-C 框架

我知道这里已经有一些关于这个主题的问题但很少有人接受答案而且我认为我没有找到与我完全相同的问题我正在构建一个 Swift pod 在我的代码中我依赖于 Google Maps iOS SDK 它捆绑为 framework文件该项目在
如何将受邀用户与邀请人的公司/群组关联起来？

我正在使用 Django django allauth 和 django invitations 我能够成功邀请用户加入该平台但我想将他们与邀请者的公司关联起来我已经阅读了 bee keeper django invitations 但
我可以使用 Apache-Poi 将 Excel 电子表格格式化为流模式下的表格吗

A regular spreadsheet tab in Excel can be made into a table by selecting the data and ctrl T This gives each column a he
如何检测 HorizontalScrollView 内的视图何时接触另一个视图？

所以我试图创建像滚动视图一样的 iMovie 我想在滚动视图内的图像触摸白线时得到回调这样我就可以更改大图像我怎样才能做到这一点这个解决方案对我有用也是我在对 Horizo ntalScrollView 的选项进行长期研究后能够找到
龙卷风只能升级到websocket错误

我正在使用龙卷风进行实时应用我正在为此使用 Redis 当我访问网址时127 0 0 1 8888 2 其中 2 是我的用户 ID 我收到错误消息can Upgrade only to websocket 我不知道为什么我会收到此错误这
处理“javax/xml/XMLConstants.class”时出现问题

我正在启动一个新的 Android 项目该项目引用了一个第三方 JAR 而该第三方 JAR 又引用了其他 4 个 JAR ws commons java5 1 0 1 jar ws commons util 1 0 2 jar xmlrp
as3 AIR for android - 应用程序沙箱内容错误

目标我试图允许外部加载的 swf 文件与从设备本地加载的文件相互通信我需要能够访问变量函数和对象我在从网上加载 swf 内容时已经实现了这一点 as3 从网络外部加载的swf 控制从网络外部加载的swf https stackove
如何在 Spark 中从文本文件创建 DataFrame

我在 HDFS 上有一个文本文件我想将其转换为 Spark 中的数据帧我正在使用 Spark 上下文加载文件然后尝试从该文件生成各个列 val myFile sc textFile file txt val myFile1 myFil

如何在 Spark 中从文本文件创建 DataFrame

如何在 Spark 中从文本文件创建 DataFrame 的相关文章

随机推荐

热门标签