Spark SQL - 从 sql 函数生成数组的数组

2024-03-26

我想创建一个数组的数组。这是我的数据表：

// A case class for our sample table
case class Testing(name: String, age: Int, salary: Int)

// Create an RDD with some data
val x = sc.parallelize(Array(
    Testing(null, 21, 905),
    Testing("Noelia", 26, 1130),
    Testing("Pilar", 52,  1890),
    Testing("Roberto", 31, 1450)
 ))

// Convert RDD to a DataFrame 
val df = sqlContext.createDataFrame(x) 

// For SQL usage we need to register the table
df.registerTempTable("df")

我想创建一个整数列“age”的数组。为此，我使用“collect_list”：

sqlContext.sql("SELECT collect_list(age) as age from df").show

但现在我想生成一个包含上面创建的多个数组的数组：

 sqlContext.sql("SELECT collect_list(collect_list(age), collect_list(salary)) as arrayInt from df").show

但这不行，还是用org.apache.spark.sql.functions.array这个函数。有任何想法吗？

好吧，事情再简单不过了。让我们考虑一下您正在处理的相同数据，并从那里逐步进行

// A case class for our sample table
case class Testing(name: String, age: Int, salary: Int)

// Create an RDD with some data
val x = sc.parallelize(Array(
  Testing(null, 21, 905),
  Testing("Noelia", 26, 1130),
  Testing("Pilar", 52, 1890),
  Testing("Roberto", 31, 1450)
))

// Convert RDD to a DataFrame
val df = sqlContext.createDataFrame(x)

// For SQL usage we need to register the table
df.registerTempTable("df")
sqlContext.sql("select collect_list(age) as age from df").show

// +----------------+
// |             age|
// +----------------+
// |[21, 26, 52, 31]|
// +----------------+

sqlContext.sql("select collect_list(collect_list(age),     collect_list(salary)) as arrayInt from df").show

正如错误消息所示：

org.apache.spark.sql.AnalysisException: No handler for Hive udf class
org.apache.hadoop.hive.ql.udf.generic.GenericUDAFCollectList because: Exactly one argument is expected..; line 1 pos 52 [...]

collest_list仅需要一个参数。让我们检查一下文档here http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24.

它实际上需要一个参数！但让我们进一步了解函数对象的文档。您似乎已经注意到，数组函数允许您从 Column 或重复的 Column 参数创建新的数组列。那么让我们使用它：

sqlContext.sql("select array(collect_list(age), collect_list(salary)) as arrayInt from df").show(false)

数组函数确实从由collect_list预先创建的列列表中创建了一个列，包括年龄和薪水：

// +-------------------------------------------------------------------+
// |arrayInt                                                           |
// +-------------------------------------------------------------------+
// |[WrappedArray(21, 26, 52, 31), WrappedArray(905, 1130, 1890, 1450)]|
// +-------------------------------------------------------------------+

我们接下来该去哪里？

您必须记住，DataFrame 中的 Row 只是由 Row 包装的另一个集合。

我要做的第一件事就是处理该系列。那么我们如何展平WrappedArray[WrappedArray[Int]] ?

Scala 有点神奇，你只需要使用.flatten

import scala.collection.mutable.WrappedArray

val firstRow: mutable.WrappedArray[mutable.WrappedArray[Int]] =
  sqlContext.sql("select array(collect_list(age), collect_list(salary)) as arrayInt from df")
    .first.get(0).asInstanceOf[WrappedArray[WrappedArray[Int]]]
// res26: scala.collection.mutable.WrappedArray[scala.collection.mutable.WrappedArray[Int]] =
// WrappedArray(WrappedArray(21, 26, 52, 31), WrappedArray(905, 1130, 1890, 1450))

firstRow.flatten
// res27: scala.collection.mutable.IndexedSeq[Int] = ArrayBuffer(21, 26, 52, 31, 905, 1130, 1890, 1450)

现在让我们将其包装在 UDF 中，以便我们可以在 DataFrame 上使用它：

def flatten(array: WrappedArray[WrappedArray[Int]]) = array.flatten
sqlContext.udf.register("flatten", flatten(_: WrappedArray[WrappedArray[Int]]))

由于我们注册了 UDF，我们现在可以在 sqlContext 中使用它：

sqlContext.sql("select flatten(array(collect_list(age), collect_list(salary))) as arrayInt from df").show(false)

// +---------------------------------------+
// |arrayInt                               |
// +---------------------------------------+
// |[21, 26, 52, 31, 905, 1130, 1890, 1450]|
// +---------------------------------------+

我希望这有帮助！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

Spark SQL - 从 sql 函数生成数组的数组的相关文章

sh / Bash shell 脚本中 !# (bang-pound) 的含义是什么？

我想了解这个 Scala 脚本是如何工作的 usr bin env bash exec scala 0 object HelloWorld def main args Array String println Hello world arg
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
SBT Scaladoc 配置

我正在尝试在 SBT 中配置 Scaladoc 特别是标题输出目录和类路径我通过将以下内容添加到 build sbt 来定义标题 scalacOptions in Compile doc Opts doc title Scala Too
伴随对象中的方法编译成scala中的静态方法？

看起来 scala 将伴生对象中的方法编译为静态方法这使得从 java 代码中调用它们变得更容易一些例如您可以编写 CompanionObject method 而不是 CompanionObject MODULE method 然而
将多个 Future[Seq] 连接成一个 Future[Seq]

如果没有 Future 这就是我将所有较小的 Seq 组合成一个大 Seq 的方式flatmap category getCategoryUrlKey id Int Seq Meta main method val appDomains S
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
无法在 NetBeans 7.4rc1 上安装 nb-scala

我已经安装了 NB 7 4rc1 并从下载了 nb scalahttp sourceforge net projects erlybird files nb scala http sourceforge net projects erlyb
如何在 IntelliJ IDEA 中关闭具有 Unit 返回类型的 Scala 自动完成函数？

IntelliJ IDEA Scala 插件具有自动添加功能 Unit到单位返回函数的末尾例如如果我正在编写一个有副作用的函数foo def foo 当我击中Enter当光标位于大括号之间时我将得到以下内容 def foo Unit
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
无法证明与路径相关类型的等价性

为什么最后一个summon编译失败我该怎么做才能让它编译 import java time LocalDateTime LocalTime trait Circular T type Parent given localTimeCircu
使用 Apache Commons lineIterator 时出现 OutOfMemory 错误

我正在尝试使用 Apache Commons 逐行迭代 1 2GB 文件FileUtils lineIterator 然而一旦LineIterator calls hasNext 我得到一个java lang OutOfMemoryErr
Scala 正则表达式替换为匿名函数

在 Ruby 中我可以通过以下方式替换字符串中的字符 a one1two2three a gsub d e e to i 1 gt one2two3three 从第二行开始评估块的结果将替换模式中匹配的内容我们可以在 Scala 中做类
Play 框架：异步与同步性能

我有以下代码 def sync Action val t0 System nanoTime Thread sleep 100 val t1 System nanoTime Ok Elapsed time t1 t0 1000000 0 ms
如何插入UUID的值？

我在 Play Framework 2 3 支持的 postgresql 9 4 中使用 anorm 2 4 给出一个这样的模型 case class EmailQueue id UUID send from String send to
在 Scala 中设计方便的默认值映射

我发现自己使用了很多嵌套映射例如 Map Int Map String Set String 并且我希望在访问新密钥时自动创建新的 Map Set 等例如像下面这样 val m m 1992 foo bar 请注意如果不需要我不想
强制类型差异

在 Scala 中我可以在编译时强制执行类型相等例如 case class Foo A B a A b B implicit ev A B scala gt Foo 1 2 res3 Foo Int Int Foo 1 2 scala
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit

随机推荐

mongodb show dbs list数据库失败

我是 mongodb 的新手我刚刚在我的MAC上安装了mongoDB 看完这个 YouTube 视频后在 mongo shell 中我输入 show dbs 并得到有线输出请帮助我理解并解决这个问题 gt show dbs 2017
在 JDBC 中插入单引号以进行 SQL 查询不起作用

我在通过 Oracle JDBC 在 JAVA 的准备好的语句中使用单引号时遇到了处理单引号的问题假设我们有一张 Restaurant 表其中一列 Restaurant name 的值为 1 Jack s Deli 我想使用一个简单的准
使用另一个对话框的功能更改 jQuery-UI 对话框的标题

为什么第二个 jQuery UI 对话框标题在弹出时不改变第一个对话框我使用以下命令更改框的标题 attr title Confirm 它将第一个框的标题更改为确认就像它应该有的那样现在当第二个框弹出时它应该将标题更改为消息
将 std::hash 专门化为依赖类型

我已经定义了这个模板类结构 template
尝试获取已安装应用程序列表时出现 TransactionTooLargeException

作为我的应用程序的一部分我通过使用 ApplicationPackageManager getInstalledApplications 获取设备上安装的应用程序列表但对于某些用户我收到崩溃报告说 android osBinderPr
视图漂浮在所有 ViewController 之上

在 iOS 上视图是否可能始终漂浮在所有其他视图之上我问这个是因为我想要实现的是一个漂浮在 ViewController 之上的视图然后一个模态视图控制器滑入同时该特定视图仍然漂浮在该模态视图控制器上希望你明白我想说的有您可以
程序员多久会被要求编写一个 makefile 文件？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
从当前文化中获取货币？

有没有办法从应用程序文化设置动态获取当前信息基本上如果用户将文化设置为美国我想知道货币是美元或者如果他们将其设置为英国我想知道英镑等等等这样我就可以在付款时将此信息发送给 PayPal 使用 RegionInfo ISOCur
根据当前值更新 MongoDB 中的值

我想做这样的事情但是this关键字似乎没有在更新语句中设置 db items update foo set bar this foo false true 我必须使用eval来完成这个是的您不能引用修饰符中的其他字段您必须使用 db
使 MongoDB 中的表字段可文本搜索

先决条件已使用集合创建数据库posts它的架构如下 module exports function mongoose var Schema mongoose Schema var postSchema new Schema postID
Java TA-Lib 文档 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找有关的文档TA Lib http www ta lib org index html在爪哇
使用 SWIG 和 Python/C API 包装返回 std::map 的函数

我想包装一个 C 例程它返回一个std map整数和指向 C 类实例的指针我在使用 SWIG 时遇到困难希望能提供任何帮助我试图通过一个简单的例子来将这个问题归结为它的本质标题test h定义如下 File test h incl
计算单元测试运行期间发生的GC数量[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我目前正在编写一个单元测试来查看给定方法的性能影响从实践中我们观察到当前在给定方法的执行过程中发生了很多GC 我想知道是否可以查看从
ASIHTTPRequest dealloc 和 EXC_BAD_ACCESS 问题

我使用一组 ASIHTTPRequest 包装器 AsyncImageLoader 来下载 UITableView 中单元格的图像我在处理 ASIHTTPRequests 生命周期时遇到问题如果我释放它们如果我在它们尝试加载图像时继续
警告：require_once()：http:// 包装器在服务器配置中被allow_url_include=0 禁用

我试图通过以下方式在页面中包含 php 文件 require once http localhost web a php 我收到错误 Warning require once http wrapper is disabled in the
Jodatime的LocalDateTime第一次使用时很慢

我目前正在一个 java 项目中测试一些 webapp 技术并且想知道为什么页面有时加载速度很快有时需要近 5 秒才能加载我终于发现是这条线 LocalDateTime now new LocalDateTime 第一次调用时需要很
使用 par 时图例框宽度不正确

我有问题我的图例太大我的代码 par mfrow c 1 2 hist alvsloss breaks 100 freq F main Histogramm density curve gaussian kernel n and fit
Dart - 试图理解“工厂”构造函数的价值

如果我理解正确的话 A factory constructor affords an abstract class to be instantiated by another class despite being abstract 例如
仅调用一个 Paint 事件

我的问题是我有 8 个图片框但一次只有其中一个调用其绘制方法我的代码有点太大所以我尝试尽可能地将其范围缩小到受影响的部分我最好的猜测是这并不是我的代码中的错误而是对绘制事件如何工作的误解我有一个继承自 PictureBox 的
Spark SQL - 从 sql 函数生成数组的数组

我想创建一个数组的数组这是我的数据表 A case class for our sample table case class Testing name String age Int salary Int Create an RDD wi

Spark SQL - 从 sql 函数生成数组的数组

Spark SQL - 从 sql 函数生成数组的数组 的相关文章

随机推荐

热门标签

Spark SQL - 从 sql 函数生成数组的数组的相关文章