Spark/Scala 中将 RDD 转换为 Dataframe

2024-01-30

RDD 已按以下格式创建Array[Array[String]]并具有以下值：

val rdd : Array[Array[String]] = Array(
Array("4580056797", "0", "2015-07-29 10:38:42", "0", "1", "1"), 
Array("4580056797", "0", "2015-07-29 10:38:43", "0", "1", "1"))

我想创建一个具有以下架构的数据帧：

val schemaString = "callId oCallId callTime duration calltype swId"

下一步：

scala> val rowRDD = rdd.map(p => Array(p(0), p(1), p(2),p(3),p(4),p(5).trim))
rowRDD: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[14] at map at <console>:39
scala> val calDF = sqlContext.createDataFrame(rowRDD, schema)

给出以下错误：

console:45: error: overloaded method value createDataFrame with alternatives:
     (rdd: org.apache.spark.api.java.JavaRDD[_],beanClass: Class[_])org.apache.spark.sql.DataFrame <and>
    (rdd: org.apache.spark.rdd.RDD[_],beanClass: Class[_])org.apache.spark.sql.DataFrame <and>
    (rowRDD: org.apache.spark.api.java.JavaRDD[org.apache.spark.sql.Row],schema: org.apache.spark.sql.types.StructType)org.apache.spark.sql.DataFrame <and>
    (rowRDD: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row],schema: org.apache.spark.sql.types.StructType)org.apache.spark.sql.DataFrame
    cannot be applied to (org.apache.spark.rdd.RDD[Array[String]],   
    org.apache.spark.sql.types.StructType)
       val calDF = sqlContext.createDataFrame(rowRDD, schema)

只需粘贴到spark-shell:

val a = 
  Array(
    Array("4580056797", "0", "2015-07-29 10:38:42", "0", "1", "1"), 
    Array("4580056797", "0", "2015-07-29 10:38:42", "0", "1", "1"))

val rdd = sc.makeRDD(a)

case class X(callId: String, oCallId: String, 
  callTime: String, duration: String, calltype: String, swId: String)

Then map()通过 RDD 创建案例类的实例，然后使用创建 DataFrametoDF():

scala> val df = rdd.map { 
  case Array(s0, s1, s2, s3, s4, s5) => X(s0, s1, s2, s3, s4, s5) }.toDF()
df: org.apache.spark.sql.DataFrame = 
  [callId: string, oCallId: string, callTime: string, 
    duration: string, calltype: string, swId: string]

这从案例类推断模式。

然后您可以继续：

scala> df.printSchema()
root
 |-- callId: string (nullable = true)
 |-- oCallId: string (nullable = true)
 |-- callTime: string (nullable = true)
 |-- duration: string (nullable = true)
 |-- calltype: string (nullable = true)
 |-- swId: string (nullable = true)

scala> df.show()
+----------+-------+-------------------+--------+--------+----+
|    callId|oCallId|           callTime|duration|calltype|swId|
+----------+-------+-------------------+--------+--------+----+
|4580056797|      0|2015-07-29 10:38:42|       0|       1|   1|
|4580056797|      0|2015-07-29 10:38:42|       0|       1|   1|
+----------+-------+-------------------+--------+--------+----+

如果你想使用toDF()在正常程序中（不是在spark-shell），确保（引用自here https://community.cloudera.com/t5/Advanced-Analytics-Apache-Spark/Spark-Scala-Error-value-toDF-is-not-a-member-of-org-apache-spark/td-p/29878):

To import sqlContext.implicits._创建后立即SQLContext
使用以下方法在方法外部定义案例类toDF()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

Hadoop

apachespark

Spark/Scala 中将 RDD 转换为 Dataframe 的相关文章

如何调用 Scala 抽象类型的构造函数？

我试图弄清楚如何调用 Scala 抽象类型的构造函数 class Journey val length Int class PlaneJourney length Int extends Journey length class BoatJ
实现只有一个居民的类型的价值

感谢 MilesSabin 的answer https stackoverflow com a 32157259 867671我可以编写类型级别的斐波那契序列 sealed trait Digit case object Zero exte
过滤器的 Scala 集合类型

假设您有一个 List 1 1 其类型为 List Any 这当然是正确的且符合预期现在如果我像这样映射列表 scala gt List 1 1 map case x Int gt x case y String gt y toInt 结
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
解决 sbt 中 jar 加载冲突的问题

当两个特定的 sbt 插件启动时我在 sbt 启动时收到以下错误加在一起到其构建定义中的项目这些 sbt 插件之一是规模化jdbc https github com scalikejdbc scalikejdbc另一个是my own h
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
使用什么框架来引导我的第一个生产 scala 项目？

我正在第一次涉足 scala 的生产应用程序该应用程序当前打包为 war 文件我的计划是创建 scala 编译工件的 jar 文件并将其添加到 war 文件的 lib 文件夹中我的增强功能是通过 Jersey 公开的 mysql 支
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
ScalaTest v3：为什么需要实现convertToLegacyEqualizer

Using 斯卡拉测试3 0 0 http www scalatest org install环境 Scala 2 11 8 sbt 0 13 5 IntelliJ 14 1 4 build sbt 只有 NOTE not using or
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
在泛型方法中返回原始集合类型

假设我们想要创建一个像这样的函数minBy返回集合中同等极简主义的所有元素 def multiMinBy A B Ordering xs Traversable A f A gt B val minVal f xs minBy f xs f
Scala 为了在 JVM 上运行做出了哪些妥协？

Scala 是一种很棒的语言但我想知道如果它有自己的运行时如何改进 IE 由于 JVM 的选择做出了哪些设计选择我所知道的两个最重要的妥协是类型擦除 http java sun com docs books tutorial ja
如何记录来自 Akka (Java) 的所有传入消息

在 Scala 中您可以使用 LoggingReceive 包装接收函数如何通过 Java API 实现相同的目标 def receive LoggingReceive case x do something Scala API 有Lo
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
函数式 Scala 中的选择排序

我正在学习 Scala 编程并编写了选择排序算法的快速实现然而由于我对函数式编程还不太了解所以在转换为更 Scala 风格时遇到了困难对于 Scala 程序员来说如何使用 Lists 和 vals 来做到这一点而不是回到我的命
在这种情况下，scala 的类型检查是如何工作的？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Start writing your ScalaFiddle code here sealed trait DSL A def run
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg

随机推荐

在运行时转储执行数据

我正在使用 JaCoCo 生成代码覆盖率报告并且我有许多场景需要生成单独的报告问题是该程序非常庞大大约需要 2 分钟才能启动并加载所有类文件我想在其中一个场景完成后立即获取运行时的执行数据然后开始下一个场景而不是为每个场景重新启
使用 CSS3 堆叠媒体查询

我正在尝试在 CSS 中堆叠媒体查询但似乎无法让它正常工作我想要实现的是拥有一组 css 规则any的媒体询问我知道通常我可以使用and让它适用于不同的规则但在这种情况下我试图处理特定于供应商的前缀因此浏览器不会满足所有条件这
Rails formtastic 嵌套形式警告：无法批量分配受保护的属性

我有以下型号 class CapstoneMilestone lt ActiveRecord Base attr accessible capstone id milestone id rank id status statusweight
如何在 C# 中使用“for 循环”和“数组”反转整数

我是 C 新手正在学习反转整数数字我必须使用 forloop 和数组来完成代码但我真的不知道如何使用它们例如如果输入是 1 2 3 4 5 6结果应该是 6 5 4 3 2 1 有人可以帮帮我吗谢谢编辑我真的很抱歉我忘记
我可以用一个类名指定多个 CSS 类吗？

我想在元素上指定几个 css 类但我不想每次都重复上 3 4 或更多课我想从 span class class1 backgroundclass borderclass iconclass Link span To span class
意外删除了 Xaml 文件的隐藏代码。如何再次添加后面的代码？

我没有错误地排除它而是删除了 Xaml 文件背后的 cs 代码现在我不知道如何添加后面的代码该窗口是空的上面没有 UI 控件查看代码被禁用我在任何地方都看不到此 xaml 的事件闪电图标请帮忙有两个必需步骤和一个可选步
在 MATLAB 中处理 Kinect 深度数据

所以我使用 Kinect 获取了一些深度图像现在将它们保存起来那么如果我想处理这个深度图像以获得Z值即物体到Kinect的距离我应该怎么做我一直在网上进行一些研究发现我需要将图像保存为 16 位深度图像才能存储深度值而不是只能
未调用自定义 UITableVIewCell 初始化

我有带有一些图像和标签的自定义 UiTablleviewCell 并且我想在 tableview 单元格中旋转标签所以我想编辑 initWithStyle 方法但似乎从未调用过它 id initWithStyle UITableView
根据 groupby 之后其他列中的值之间的数据帧范围对单独的列求和

我有一个数据框如下 id Supply days days 180 1 30 0 180 1 100 183 363 1 80 250 430 2 5 0 180 2 5 10 190 3 5 0 180 3 30 100 280 3 30
JQGrid是免费的吗？

从以下位置下载 JQGrid js 文件http www trirand com blog http www trirand com blog 免费吗这是什么http www trirand net demoaspnetmvc aspx
安卓屏幕分辨率

Android 中已经定义了一些屏幕分辨率他们是 QVGA 240 320 低密度小屏幕 WQVGA 240 400 低密度普通屏幕 FWQVGA 240 432 低密度普通屏幕 HVGA 320 480 中等密度普通屏幕 WVG
NameError：Python 中未定义名称“reduce”

我正在使用Python 3 2 尝试过这个 xor lambda x y x y 2 l reduce xor 1 2 3 4 并得到以下错误 l reduce xor 1 2 3 4 NameError name reduce is no
什么可能导致 MSIExec 错误 1619“无法打开此安装包”

我正在尝试从一组示例程序中自动执行一组 MSI 文件由 WiX 生成的往返安装和卸载由于某种原因双击后会生成一个非常适合安装的 MSI 文件无法打开该安装包验证该包是否存在并且您可以访问它或者联系应用程序供应商以验证这是否是有
在后台获取核心数据

我有一个带有表视图的导航视图当单击一行时行索引路径将传递到下一个视图在详细信息视图 viewDidLoad 中我正在从 Core Data 获取数据我使用从应用程序委托中获取 appDelegate loadItem i 正如你所
publicId 和 systemId 之间需要空格

我试图通过在 jsp 中编写一些代理代码来从我的计算机本地对其他域进行 ajax 调用这是我调用 proxy jsp 页面的 jQuery AJAX 代码 var metadata https rest search host com m
是否可以从 clickhouse 表中删除旧记录？

据我所知 clickhouse只允许插入新数据但是是否可以删除早于某个时间段的块以避免硬盘溢出轻量级删除自 v22 8 起可用 MergeTree 表的标准 DELETE 语法已在 37893 https github com Cli
不存在的列不应破坏 select 中的 sql 查询

就我而言有不同的数据库版本 SQL Server 例如我的桌子orders有专栏htmltext在版本 A 中但在版本 B 中列htmltext不见了 Select order id order date htmltext from o
在迭代器中访问 C# 基类会导致 ReSharper 警告

我有两节课GenericList and SpecificList where SpecificList继承自GenericList GenericList实施IEnumerable
WCF双工服务通道关闭

我有一个基于 WCF Duplex 服务的应用程序当用户重新启动应用程序所做的工作时我遇到问题在后台客户端关闭与 WCF 服务的连接并创建另一个连接服务合同的定义如下 ServiceContract Namespace net
Spark/Scala 中将 RDD 转换为 Dataframe

RDD 已按以下格式创建Array Array String 并具有以下值 val rdd Array Array String Array Array 4580056797 0 2015 07 29 10 38 42 0 1 1 Arra

Spark/Scala 中将 RDD 转换为 Dataframe

Spark/Scala 中将 RDD 转换为 Dataframe 的相关文章

随机推荐

热门标签