如何按特定字段对 Spark DataFrame 中的结构类型数组进行排序？

2023-11-24

给出以下代码：

import java.sql.Date
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

object SortQuestion extends App{

  val spark = SparkSession.builder().appName("local").master("local[*]").getOrCreate()
  import spark.implicits._
  case class ABC(a: Int, b: Int, c: Int)

  val first = Seq(
    ABC(1, 2, 3),
    ABC(1, 3, 4),
    ABC(2, 4, 5),
    ABC(2, 5, 6)
  ).toDF("a", "b", "c")

  val second = Seq(
    (1, 2, (Date.valueOf("2018-01-02"), 30)),
    (1, 3, (Date.valueOf("2018-01-01"), 20)),
    (2, 4, (Date.valueOf("2018-01-02"), 50)),
    (2, 5, (Date.valueOf("2018-01-01"), 60))
  ).toDF("a", "b", "c")

  first.join(second.withColumnRenamed("c", "c2"), Seq("a", "b")).groupBy("a").agg(sort_array(collect_list("c2")))
    .show(false)

}

Spark 产生以下结果：

+---+----------------------------------+
|a  |sort_array(collect_list(c2), true)|
+---+----------------------------------+
|1  |[[2018-01-01,20], [2018-01-02,30]]|
|2  |[[2018-01-01,60], [2018-01-02,50]]|
+---+----------------------------------+

这意味着 Spark 正在按日期对数组进行排序（因为它是第一个字段），但我想指示 Spark 按该嵌套结构中的特定字段进行排序。

我知道我可以将数组重塑为(value, date)但这似乎不方便，我想要一个通用的解决方案（想象我有一个大的嵌套结构，5层深，我想按特定列对该结构进行排序）。

有没有办法做到这一点？我错过了什么吗？

根据蜂巢维基:

sort_array(Array<T>)：根据数组元素的自然顺序对输入数组进行升序排序并返回（从0.9.0版本开始）。

这意味着数组将按字典顺序排序，即使对于复杂的数据类型也是如此。

或者，您可以创建一个 UDF 以根据第二个元素对其进行排序（并见证性能下降）：

val sortUdf = udf { (xs: Seq[Row]) => xs.sortBy(_.getAs[Int](1) )
                                        .map{ case Row(x:java.sql.Date, y: Int) => (x,y) }}

first.join(second.withColumnRenamed("c", "c2"), Seq("a", "b"))
     .groupBy("a")
     .agg(sortUdf(collect_list("c2")))
     .show(false)

//+---+----------------------------------+
//|a  |UDF(collect_list(c2, 0, 0))       |
//+---+----------------------------------+
//|1  |[[2018-01-01,20], [2018-01-02,30]]|
//|2  |[[2018-01-02,50], [2018-01-01,60]]|
//+---+----------------------------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DataFrame

scala

apachespark

apachesparksql

如何按特定字段对 Spark DataFrame 中的结构类型数组进行排序？的相关文章

Scala 除以零会产生不同的结果

我对 Scala 如何处理除以零感到困惑这是 REPL 代码片段 scala gt 1 0 java lang ArithmeticException by zero 33 elided scala gt 1 toDouble 0 toD
计算连续有多少次和的结果为正（或负）

第一部分我有一个包含财务数据的数据框 33023 行这里是指向数据 https mab to Ssy3TelRs https mab to Ssy3TelRs df open 是标题的价格 df close 是收盘价我一直想看看标题
四舍五入数据框中的所有列 - 两位小数 pyspark

我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入不是每一列
使用 .map() 在 pandas DataFrame 中高效创建附加列

我正在分析形状与以下示例类似的数据集我有两种不同类型的数据 abc数据和xyz data abc1 abc2 abc3 xyz1 xyz2 xyz3 0 1 2 2 2 1 2 1 2 1 1 2 1 1 2 2 2 1 2 2 2 3
组合多个任意长度的列表

我正在寻找一种通过以下方式加入多个列表的方法 ListA a b c ListB 1 2 3 4 ListC Resulting List a 1 b 2 c 3 4 换句话说元素按顺序排列从第一个列表开始组合到结果列表中任意数量的输
在 Scala 中是否可以指定匿名函数的返回类型？

我知道您可以创建一个匿名函数并让编译器推断其返回类型 val x gt System currentTimeMillis 只是为了静态类型的缘故是否也可以指定其返回类型我认为这会让事情变得更加清晰 val x gt System cu
类型不匹配;发现：长需要：Int

我有一个应该返回 Long 的方法但我收到一个错误 type mismatch found Long required Int 方法如下 def getRandom IMEI from Long to Long Long if from
帮助我理解这段 Scala 代码：scalaz IO Monad 和隐式

这是后续this https stackoverflow com questions 7404495 help me understand this scala code scalaz io monad问题这是我试图理解的代码它来自ht
用 R 将矩阵划分为 N 个大小相等的块

如何使用 R 将矩阵或数据帧划分为 N 个大小相等的块我想水平切割矩阵或数据框例如给定 r 8 c 10 number of chunks 4 data matrix seq r c nrow r ncol c gt gt gt da
自动将通配符导入重构为 IntelliJ 中的显式导入（适用于 Scala/Java）

考虑下面的代码是否可以让 IntelliJ 自动将每个通配符导入重构为显式导入无论范围内使用什么例如import scalatags JsDom all into import scalatags JsDom all ol li di
Pandas 将时间序列数据重新采样为 15 分钟和 45 分钟 - 使用多索引或列

我有一些时间序列数据作为 Pandas 数据框它从每小时过去 15 分钟和过去 45 分钟时间间隔为 30 分钟的观察开始然后将频率更改为每分钟我想对数据进行重新采样以便整个数据帧的频率为每 30 分钟一次 15 点和 45 点
有没有好的 Clojure 基准测试？

Edit Clojure 基准测试已达到基准游戏 http benchmarksgame alioth debian org u64q clojure html 我已经制作了这个问题社区维基并邀请其他人保持更新有人知道 Clojure 性
IntelliJ IDEA 13 给出有关不兼容类型的无效错误（Play 中的 Java-Scala-InterOp）

我刚刚从 IDEA 12 升级到 13 社区版从那时起我在 IDEA 中收到关于我的游戏项目的类型不兼容的错误 Option
如何使用 python apply/lambda/shift 函数根据 2 列的值获取该特定列的前一行值？

我有 2 列 FN1 和 FN2 基于这些我必须再创建一列最终 FN1 FN2 Final False False 1 True True 1 False False 1 True False 2 True True 2 False Fa
如何识别远程参与者？

我有一个远程参与者客户端它正在向另一个远程参与者服务器注册然后注销使用关闭挂钩然而虽然服务器接收到注销但实际sender财产是一个不同的 Channel 对象所以在我的服务器日志中我有 Registered new cl
Scala SBT 版本依赖性二进制兼容性错误 scala-xml

我有一个在 GitHub 上托管的项目我使用 scala steward 来保持我的插件和依赖项最新这在一段时间内有效但现在使用此类自动更新却变成了一场噩梦事情是这样的在我的plugins sbt中我依赖于scoverage 它
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
在 pandas 中展开列表列时，是否有一种Python式的方法来添加枚举列？

考虑以下DataFrame gt gt gt df pd DataFrame A 1 2 3 B abc def ghi apply A int B list gt gt gt df A B 0 1 a b c 1 2 d e f 2 3
xts 函数不将我的 POSIXct 日期视为适当的基于时间的对象

我创建了一个包含两列的数据框 gt head data frame Date Rainfall 1 1992 01 06 14 00 00 0 3 2 1992 01 06 15 00 00 0 2 3 1992 01 06 16 00 0

随机推荐

有符号零的最小值和最大值

我担心以下情况 min 0 0 0 0 max 0 0 0 0 minmag x x maxmag x x 根据维基百科 IEEE 754 2008说的是关于最小值和最大值定义了最小和最大操作但为输入值相等但表示不同的情况留有一些余地
如何在 matplotlib.pyplot.imshow 中使用“范围”

我设法绘制了我的数据并想为其添加背景图像地图数据是按长纬度值绘制的我也有图像三个角左上角右上角和左下角的长纬度值我试图弄清楚如何在 imshow 中使用范围选项然而我发现的例子并没有解释如何为每个角分配 x 和
prestashop 将图像添加到产品中

我有一个产品对象我正在 PHP 脚本中创建它我需要添加缩略图和大图像它们位于 zip 文件中文件名包含产品 ID 在代码中实现此目的的最佳方法是什么我假设我需要将图像提取到文件系统中的某个位置但我不知道 prestashop 如
JTable 准备编辑器如何工作

我不明白prepareEditor是如何工作的我无法使用prepareEditor中的Action设置prepareRenderer的可见性规则正如我在附图中捕获的那样第 1 行的规则按我的预期工作如果未选择 JCheckBox 也
错误 C2678：二进制“=”：找不到采用“const Recipe”类型的左侧操作数的运算符（或者没有可接受的转换）

我正在尝试对每个元素中包含一个 int 和一个字符串的向量进行排序它是一个类类型的向量称为向量食谱出现上述错误这是我的代码在我的 Recipe h 文件中 struct Recipe public string get cname
MySQL 的密钥文件不正确

我遇到了一个 InnoDB 表的问题表最初是 MyISAM 但不久前也将其转换为 InnodB 我正在尝试运行此查询 SELECT posts id posts post title FROM rss posts AS posts INN
在 jQuery 中创建 div 元素 [重复]

这个问题在这里已经有答案了我如何创建一个div元素在jQuery 从 jQuery 1 4 开始您可以将属性传递给自封闭元素如下所示 jQuery div id some id class some class some other
socket.error: [Errno 32] 管道损坏

我编写了一个客户端服务器 python 程序其中客户端将列表发送到服务器服务器接收数组删除列表的前两个元素并将其发送回客户端服务器接收列表没有问题但是当服务器想要发回编辑后的列表时它显示错误 socket error Errn
如何在 Visual Studio 中静态链接 VCPKG 生成的 .lib 文件

我使用 VCPKG 构建第三方库例如 libcurl 我有动态和静态构建显然导入 lib和对象 lib文件分别包含在两个不同的文件夹中 x64 windows和x64 windows static 我想将对象 libcurl lib
在 D3.js 中重新排序 SVG ( z-index ) 元素

我意识到这个问题以前已经被问过但我无法深入了解这是我的图表 http www gogeye com financialnews piechart index3 html 我想做的就是将硬币渲染在图表后面我知道 D3 渲染是按照附加顺序
如何查询pandas中的MultiIndex索引列值

代码示例 In 171 A np array 1 1 1 1 3 3 3 3 5 5 6 6 In 172 B np array 111 222 222 333 333 777 In 173 C randint 10 99 6 In 174
将图像转换为 Base64，反之亦然

我想将图像转换为 Base64 然后再次转换回图像这是我到目前为止尝试过的代码以及错误请问有什么建议吗 public void Base64ToImage string coded System Drawing Image finalI
在 Java 中构建 SQL 字符串的最简洁方法

我想构建一个 SQL 字符串来执行数据库操作更新删除插入选择之类的事情而不是使用数百万个和引号的糟糕的字符串连接方法这充其量是不可读的有一定是更好的方法我确实考虑过使用 MessageFormat 但它应该用于用户消息尽
PHP：MySQL 服务器消失了

我知道这个问题已经被问过很多次了但我已经尝试了一切我有一个 PHP 脚本它会迭代数千个图像根据需要执行调整大小然后插入数据库我收到此错误消息警告 mysql query function mysql query MySQL 服
后置和前置增量运算符

当我运行以下示例时我得到输出 0 2 1 class ZiggyTest2 static int f1 int i System out print i return 0 public static void main String ar
Android 中的 TTS 暂停

我正在开发一个应用程序它可以读出文档中的文本我想添加暂停和恢复功能但我在 TTS 中找不到任何暂停方法有什么办法可以让我暂停吗有一个方法可以暂停只需致电TextToSpeech playSilence 请参阅下面的代码here
跨源请求被阻止 Spring REST 服务 + AJAX

无法调用spring REST服务我的春季服务 RequestMapping value MAS authenticate method RequestMethod POST public ResponseEntity
将掩码应用于字符串

我正在从表中读取字符串 ID 值当用户输入 ID 时是使用用户定义的输入掩码完成的因此掩码可能类似于000 00 0000 AA 9999999等掩码会因用户而异因此必须在运行时进行评估鉴于表中仅存储字母数字文本那么应用该掩码
如何删除 Logstash 过滤器中所有具有 NULL 值的字段

我正在使用 Logstash 读取 csv 格式的检查点日志文件并且某些字段具有空值我想删除所有具有空值的字段我无法准确预见哪些字段键将具有空值因为我的 csv 文件中有 150 列并且我不想检查其中的每一列是否可以在log
如何按特定字段对 Spark DataFrame 中的结构类型数组进行排序？

给出以下代码 import java sql Date import org apache spark sql SparkSession import org apache spark sql functions object SortQu

如何按特定字段对 Spark DataFrame 中的结构类型数组进行排序？

如何按特定字段对 Spark DataFrame 中的结构类型数组进行排序？ 的相关文章

随机推荐

热门标签

如何按特定字段对 Spark DataFrame 中的结构类型数组进行排序？的相关文章