如何使用 Scala 使用比较器对 DataFrame 进行排序？

2023-12-01

我想使用我自己的比较器根据列对 DataFrame 进行排序。 Spark SQL 可以做到这一点吗？

例如，假设我有一个 DataFrame 注册为表“MyTable”，其中列“Day”，其类型为“string”：

id  | Day  
--------------------
1   | Fri           
2   | Mon           
3   | Sat           
4   | Sun           
5   | Thu

我想执行这个查询：

SELECT * FROM MyTable ORDER BY Day

我想用我自己的比较器订购“日”列。我想过使用UDF，但不知道是否可行。请注意，我真的想在排序/排序操作中使用比较器。我不想将字符串从“日”列转换为“日期时间”或类似的内容。

在SparkSQL中，你没有选择，需要使用orderBy具有一列或多列。对于 RDD，如果您愿意，可以使用自定义的类似 java 的比较器。确实，这是sortBy的方法RDD (参见Spark 2.4的scaladoc):

def sortBy[K](f: (T) ⇒ K, ascending: Boolean = true, numPartitions: Int = this.partitions.length)
    (implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]

这意味着您可以提供Ordering您选择的，这与 java 完全一样Comparator (Ordering实际上继承自Comparator).

为简单起见，假设我想按列“x”的绝对值排序（这可以在没有比较器的情况下完成，但假设我需要使用比较器）。我首先在行上定义比较器：

class RowOrdering extends Ordering[Row] {
    def compare(x : Row, y : Row): Int = x.getAs[Int]("x").abs - y.getAs[Int]("x").abs
}

现在让我们定义数据并对其进行排序：

val df = Seq( (0, 1),(1, 2),(2, 4),(3, 7),(4, 1),(5, -1),(6, -2),
    (7, 5),(8, 5), (9, 0), (10, -9)).toDF("id", "x")
val rdd = df.rdd.sortBy(identity)(new RowOrdering(), scala.reflect.classTag[Row])
val sorted_df = spark.createDataFrame(rdd, df.schema)
sorted_df.show
+---+---+
| id|  x|
+---+---+
|  9|  0|
|  0|  1|
|  4|  1|
|  5| -1|
|  6| -2|
|  1|  2|
|  2|  4|
|  7|  5|
|  8|  5|
|  3|  7|
| 10| -9|
+---+---+

另一种解决方案是定义隐式排序，以便排序时无需提供它。

implicit val ord = new RowOrdering()
df.rdd.sortBy(identity)

最后，请注意df.rdd.sortBy(_.getAs[Int]("x").abs)会达到相同的结果。此外，您可以使用元组排序来执行更复杂的操作，例如按绝对值排序，如果相等，则将正值放在前面：

df.rdd.sortBy(x => (x.getAs[Int]("x").abs, - x.getAs[Int]("x"))) //RDD
df.orderBy(abs($"x"), - $"x") //dataframe

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

Sorting

apachespark

apachesparksql

如何使用 Scala 使用比较器对 DataFrame 进行排序？的相关文章

如何随机化 NSArray？ [复制]

这个问题在这里已经有答案了假设我有一个 NSArray 里面有 50 100 个对象如何将数组按随机顺序排列有很多方法可以做到这一点但大多数只涉及生成随机数也许您可以使用 NSMutableArray 使用此技术生成 0 到 4
如何从java程序的main方法调用Scala程序的main方法？

假设我在 Java 项目中有一个 Scala 类和一个 Java 类 scala 类如下所示 class Sam def main args Array String Unit println Hello 如何从同一项目中存在的 java
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
Javascript 无法正确排序 DECIMAL 数字

我有一些代码可以按字母顺序对名称进行排序我遇到的问题是它处理小数的方式它对名称进行排序如下所示我宁愿它按数字递增 DOG 1 0510 DOG 1 1031 DOG 11 1792 DOG 12 0920 DOG 12 1170 D
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
根据特定行中的值对列重新排序。

我在数据框中有以下数据 aa bb cc 1 3 4 5 2 5 4 3 3 7 8 6 100 33 63 55 我需要根据最后一行中的值对列重新排序这种转变的结果将是 bb cc aa 1 4 5 3 2 4 3 5 3 8 6 7
按升序对数字字符串列表进行排序

我创建了一个SQLite https en wikipedia org wiki SQLite数据库有一个存储温度值的表第一次将温度值按升序写入数据库然后我将数据库中的温度值读入列表中然后将该列表添加到组合框中以选择温度效果很好
SBT 对 Scala 类型感到困惑

SBT 抛出以下错误 value split is not a member of String String error filter arg gt arg split delimiter length gt 2 对于以下代码块 impl
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
Scala：“递归值...需要类型”，但我只使用 Java 类型

object Rec extends App val outStream new java io ByteArrayOutputStream val out new java io PrintStream new java io Buffe
将 DOCTYPE 添加到 Scala XML 的最简单方法？

我怎样才能在 Scala XML 中制作这个最小的 HTML5 p p 当然在 Scala 中制作类似 HTML 的 XML 很简单 gt val html p p html scala xml Elem p p 但是我怎样才能注入DO
Unix 排序实用程序：使用十六进制字节值作为分隔符

我想知道是否可以使用十六进制值作为 Unix 的分隔符sort公用事业基本上我想做一些类似的事情 sort t x00
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
Scala 2.8 中 <:<、<%< 和 =:= 的含义是什么？它们的文档在哪里？

我可以在 API 文档中看到Predef https scala lang org files archive api 2 8 2 scala Predef 24 html它们是通用函数类型 From gt To 的子类但仅此而已嗯什么
从 .NET 文本中提取关键字

我需要计算每个关键字在字符串中重复出现的次数并按最高次数排序 NET 代码中用于此目的的最快算法是什么编辑下面的代码将唯一标记与计数分组 string target src Split new char var results tar
如何在scala中生成n-gram？

我正在尝试在 scala 中编写基于 n gram 的分离新闻算法如何为大文件生成 n gram 例如对于包含蜜蜂是蜜蜂中的蜜蜂的文件首先它必须选择一个随机的 n 元语法例如蜜蜂然后它必须寻找以 n 1 个单词开头的 n 元

随机推荐

Java WSDL DHL 类

我已经从 DHL WSDL 创建了 Java 类https cig dhl de cig wsdls com dpdhl wsdl geschaeftskundenversand api 2 2 geschaeftskundenversan
如何在 PHP 中获取有用的错误消息？

我经常尝试运行 PHP 脚本但只是得到一个空白屏幕无错误信息只是一个空屏幕原因可能是一个简单的语法错误错误的括号缺少分号或者函数调用失败或者完全是其他原因很难找出哪里出了问题我最终注释掉了代码在各处输入 echo 语句
在 OS X 10.9 (Mavericks) 上安装 Java

我已经安装了JDK on Mac OS X v10 8 山狮当我升级到Mac OS X v10 9 小牛队然后跑了java version在终端中它显示不存在 Java 运行时请求安装然后我在 Mac 上手动安装了 JDK 1
CurrentUtcDateTime 不存在 - 实体框架和 MySql

我在 Entity Framework 4 1 和 MySql Connector Net 6 4 3 中遇到规范函数问题根据 Microsoft 的说法所有数据库提供程序都可以从 LINQ 生成的 SQL 中理解规范函数并将其转换为本
让 Linq 对象变得“脏”的最干净的方法是什么？

我有一个 Linq To SQL 对象obj类型的MyClass我已经通过我的数据上下文加载了现在我想强制该对象保存即使没有字段实际更改以便保存操作可以在幕后触发一些触发器让我的数据上下文认为最简单的方法是什么obj是脏的所以调用
为什么标准 R 中值函数比简单的 C++ 替代函数慢得多？

我对中位数进行了以下实现C 并将其用于R via Rcpp Rcpp export double median2 std vector
iphone -- 将 MKMapPoint 距离转换为米

假设我有一个由四个 CLLocationCooperative2D 点组成的正方形这些点的单位为经纬度我想找到该正方形的面积以米为单位我将 CLLocationCooperative2D 点转换为 MKMapPoints 然后找到
在Python中打印CSV的所有行只能运行一次

我编写了一个非常简单的程序该程序应该读取 CSV 并打印所有行两次然而当我运行该程序时它第一次打印了所有行第二次则没有打印任何内容 Code import csv csvfile csv reader open
JQuery：如何克隆自动完成字段？

我正在使用 J rn Zaefferer 的 jquery 自动完成插件当我克隆自动完成字段时我似乎不知道如何使其工作它几乎可以工作因为当我输入文本时克隆的自动完成字段会显示选项但我无法选择项目起初我以为这是一个浏览器兼容性问
需要一种方法将特定数据从 Firebase Realtime DB 提取到 Google Sheets

我正在尝试使用 AppS 脚本将 Firebase Realtime DB 数据传输到 Google Sheets 中我需要一种方法来从数据库中提取 ID 部门和姓氏字符串同时从下面的日志中接收这些字符串我使用 childByAuto
Mac OS X 上的 Java System.getProperty("user.dir")

我的桌面上有一个 Mac OS X 10 4 上的应用程序包我的应用程序查找一个名为 resources 的文件夹其中保存要显示的文件与可运行的 JAR 保存在同一位置我知道应用程序包中也有一个名为 Resources 的文件夹抱
通过意图传递可序列化对象

这是我第一次尝试寻求解决我的问题的方法所以请尽量友善通过简单的搜索我在这个网站上找到了许多我处理的问题的解决方案但我想这次我没有运气我发现没有什么适合我的问题所以我结束了问一个新问题我试图通过意图将对象从一个活动传递到另一个活
简单的 MVC 设置/设计？

我只是想确保我在构建简单的 MVC 应用程序方面朝着正确的方向前进 MODEL interface Reactor NSObject NSNumber temperature NSString lastInspection NSNumber
递归 - 嵌套数组求和

我正在尝试对嵌套数组求和 1 2 3 4 5 不使用循环但我不明白到目前为止我所拥有的有什么问题 function sumItems array let sum 0 array forEach item gt if Array isArr
Youtube API 检索直播游戏标题

我正在尝试使用 Youtube Api 检索直播的游戏标题我目前正在使用视频列表api 但它似乎没有返回此信息它确实给了我一些主题 ID 但它们并不代表特定的游戏这些信息可以通过API获取吗谢谢检查此回复我认为它满足您的所有
Rails 不检测文件更改并且 config.reload_classes_only_on_change 使服务器太慢

首先我不知道这是否是一个错误到目前为止我一直在 Railsdevelopment rb 环境配置中使用此命令以便该框检测我的文件的更改 config reload classes only on change false 但现在使用
我如何知道我的 Config.xml 文件是否在 Magento 中工作？

我已经创建了一个示例模块但我不确定它是否 module etc config xml文件正在加载我确信仅此而已就有问题有没有办法可以确定该文件是否已加载免费模块列表module 由我构建会告诉您系统中安装了哪些模块并会告诉您您的
MVC3 ModelBinding 到带有索引间隙的回传集合

我的模型上有一个对象集合我使用 EditFor 函数在视图中渲染这些对象并且我有一个 EditorTemplate 负责实际渲染每个对象 Html EditorFor model gt model MyObjects 这已经运行良好一段
Python f.read 未读取正确的字节数

我的代码应该读取 4 个字节但有时只读取 3 个字节 f open test sgy r f seek 99716 AAA f read 4 BBB f read 4 CCC f read 4 print len AAA print le
如何使用 Scala 使用比较器对 DataFrame 进行排序？

我想使用我自己的比较器根据列对 DataFrame 进行排序 Spark SQL 可以做到这一点吗例如假设我有一个 DataFrame 注册为表 MyTable 其中列 Day 其类型为 string id Day 1 Fri 2 Mo

如何使用 Scala 使用比较器对 DataFrame 进行排序？

如何使用 Scala 使用比较器对 DataFrame 进行排序？ 的相关文章

随机推荐

热门标签

如何使用 Scala 使用比较器对 DataFrame 进行排序？的相关文章