在 Scala 中将 DataFrame 转换为 RDD[Map]

2024-01-09

我想转换创建的数组,如下所示:

case class Student(name: String, age: Int)
val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))

当我从 DataFrame 收集结果时,生成的数组是一个Array[org.apache.spark.sql.Row] = Array([Torcuato,27], [Rosalinda,34])

我正在考虑将 DataFrame 转换为 RDD[Map] 例如:

Map("name" -> nameOFFirst, "age" -> ageOfFirst)
Map("name" -> nameOFsecond, "age" -> ageOfsecond)

我尝试通过以下方式使用地图:x._1但这似乎不起作用Array [spark.sql.row]我怎样才能进行转换?


您可以使用带有模式匹配的映射函数来完成这里的工作

import org.apache.spark.sql.Row

dataFrame
  .map { case Row(name, age) => Map("name" -> name, "age" -> age) }

这将导致RDD[Map[String, Any]]

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 Scala 中将 DataFrame 转换为 RDD[Map] 的相关文章

随机推荐