如何获取 Spark RDD 的 SQL row_number 等效项？

2024-01-06

我需要为包含许多列的数据表生成行号的完整列表。

在 SQL 中，这看起来像这样：

select
   key_value,
   col1,
   col2,
   col3,
   row_number() over (partition by key_value order by col1, col2 desc, col3)
from
   temp
;

现在，假设在 Spark 中我有一个 (K, V) 形式的 RDD，其中 V=(col1, col2, col3)，所以我的条目就像

(key1, (1,2,3))
(key1, (1,4,7))
(key1, (2,2,3))
(key2, (5,5,5))
(key2, (5,5,9))
(key2, (7,5,5))
etc.

我想使用 sortBy()、sortWith()、sortByKey()、zipWithIndex 等命令来排序这些，并拥有一个具有正确 row_number 的新 RDD

(key1, (1,2,3), 2)
(key1, (1,4,7), 1)
(key1, (2,2,3), 3)
(key2, (5,5,5), 1)
(key2, (5,5,9), 2)
(key2, (7,5,5), 3)
etc.

（我不关心括号，所以形式也可以是 (K, (col1,col2,col3,rownum)) 代替）

我该怎么做呢？

这是我的第一次尝试：

val sample_data = Seq(((3,4),5,5,5),((3,4),5,5,9),((3,4),7,5,5),((1,2),1,2,3),((1,2),1,4,7),((1,2),2,2,3))

val temp1 = sc.parallelize(sample_data)

temp1.collect().foreach(println)

// ((3,4),5,5,5)
// ((3,4),5,5,9)
// ((3,4),7,5,5)
// ((1,2),1,2,3)
// ((1,2),1,4,7)
// ((1,2),2,2,3)

temp1.map(x => (x, 1)).sortByKey().zipWithIndex.collect().foreach(println)

// ((((1,2),1,2,3),1),0)
// ((((1,2),1,4,7),1),1)
// ((((1,2),2,2,3),1),2)
// ((((3,4),5,5,5),1),3)
// ((((3,4),5,5,9),1),4)
// ((((3,4),7,5,5),1),5)

// note that this isn't ordering with a partition on key value K!

val temp2 = temp1.???

另请注意，函数 sortBy 不能直接应用于 RDD，但必须先运行collect()，然后输出也不是 RDD，而是数组

temp1.collect().sortBy(a => a._2 -> -a._3 -> a._4).foreach(println)

// ((1,2),1,4,7)
// ((1,2),1,2,3)
// ((1,2),2,2,3)
// ((3,4),5,5,5)
// ((3,4),5,5,9)
// ((3,4),7,5,5)

这里还有一些进展，但仍然没有分区：

val temp2 = sc.parallelize(temp1.map(a => (a._1,(a._2, a._3, a._4))).collect().sortBy(a => a._2._1 -> -a._2._2 -> a._2._3)).zipWithIndex.map(a => (a._1._1, a._1._2._1, a._1._2._2, a._1._2._3, a._2 + 1))

temp2.collect().foreach(println)

// ((1,2),1,4,7,1)
// ((1,2),1,2,3,2)
// ((1,2),2,2,3,3)
// ((3,4),5,5,5,4)
// ((3,4),5,5,9,5)
// ((3,4),7,5,5,6)

The row_number() over (partition by ... order by ...)Spark 1.4 中添加了该功能。这个答案使用 PySpark/DataFrames。

创建一个测试数据框：

from pyspark.sql import Row, functions as F

testDF = sc.parallelize(
    (Row(k="key1", v=(1,2,3)),
     Row(k="key1", v=(1,4,7)),
     Row(k="key1", v=(2,2,3)),
     Row(k="key2", v=(5,5,5)),
     Row(k="key2", v=(5,5,9)),
     Row(k="key2", v=(7,5,5))
    )
).toDF()

添加分区行号：

from pyspark.sql.window import Window

(testDF
 .select("k", "v",
         F.rowNumber()
         .over(Window
               .partitionBy("k")
               .orderBy("k")
              )
         .alias("rowNum")
        )
 .show()
)

+----+-------+------+
|   k|      v|rowNum|
+----+-------+------+
|key1|[1,2,3]|     1|
|key1|[1,4,7]|     2|
|key1|[2,2,3]|     3|
|key2|[5,5,5]|     1|
|key2|[5,5,9]|     2|
|key2|[7,5,5]|     3|
+----+-------+------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sql

apachespark

rownumber

RDD

如何获取 Spark RDD 的 SQL row_number 等效项？的相关文章

手动更改postgresql中查询的执行计划？

是否可以在postgresql中手动更改执行计划的操作顺序例如如果我总是想在过滤之前进行排序操作尽管这在 postgresql 的正常使用中没有意义是否可以通过例如手动强制执行该操作改变运营的内部成本如果我实现自己的功能呢是否可
sql server 2008 对 exec 语句的限制

我只需要仔细检查 t sql 中的 EXEC 命令是否有字符限制如果我有一个带有 varchar max 的变量并使用 EXEC 执行命令你认为这样可以吗 thanks 应该没问题根据这篇 MSDN 文章 http msdn micr
如何搜索表中的所有列？

如何在 SQL Server 中搜索表的所有列 SELECT FROM yourtable WHERE val IN field1 field2 field3 field4 如果您正在寻找精确的全场比赛如果你正在寻找子字符串匹配你将不得
Sql Server 的夏令时

我们正在使用一个以 C Unix 格式存储日期的旧应用程序 C 时间基本上是自 1970 年 1 月 1 日以来的秒数日期以整数形式存储在 SQL Server 数据库中我正在为使用这些日期的报告编写视图到目前为止我正在使用以下命令
优化 LATERAL join 中的慢速聚合

在我的 PostgreSQL 9 6 2 数据库中我有一个查询该查询根据一些股票数据构建计算字段表它为表中的每一行计算 1 到 10 年的移动平均窗口并将其用于周期性调整具体来说 CAPE CAPB CAPC CAPS 和 CAP
Postgres LIMIT/OFFSET 奇怪的行为

我正在使用 PostgreSQL 9 6 我有一个这样的查询 SELECT anon 1 id AS anon 1 id anon 1 is valid AS anon 1 is valid anon 1 first name AS ano
如何检查oracle数据库中分配给模式、角色的对象的权限（DDL、DML、DCL）？

大多数时候我们都在与愚蠢的事情作斗争以获取架构角色及其对象的权限详细信息并尝试找到一些简单的方法来获取有关它的所有详细信息以及伪查询代码以批量生成授予语句以供进一步使用执行所以我们在这里得到它关于数据字典视图前缀的一些简单介绍
SQL Server Like 查询不区分大小写

Query SELECT from Table 2 WHERE name like Joe Output 1 100 Joe 2 200 JOE 3 300 jOE 4 400 joe 为什么不区分大小写 Problem 查询不区分大小写
从 PL/SQL 调用 shell 脚本，但 shell 以 grid 用户而非 oracle 身份执行

我正在尝试使用 Runtime getRuntime exec 从 Oracle 数据库内部执行 shell 脚本在 Red Hat 5 5 上运行的 Oracle 11 2 0 4 EE CREATE OR REPLACE proced
RANK() OVER PARTITION 并重置 RANK

如何获得在分区更改时重新启动的 RANK 我有这张表 ID Date Value 1 2015 01 01 1 2 2015 01 02 1
如何将事物的组合映射到关系数据库？

我有一个表其记录代表某些对象为了简单起见我假设该表只有一列这是唯一的ObjectId 现在我需要一种方法来存储该表中的对象组合组合必须是唯一的但可以是任意长度例如如果我有ObjectIds 1 2 3 4 我想存储以下组合
最近邻居的 Postgis SQL

我正在尝试计算最近的邻居为此我需要传递一个参数来限制与邻居的最大距离例如半径1000米内最近的邻居是哪些我做了以下事情我用数据创建了表 id name latitude longitude 之后我执行了以下查询 SELECT
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
SQL UPDATE 语句根据另一个现有行更新列

基本上我有一个与下表具有相似格式的表格我想做的是根据这个逻辑更新 Col4 如果 Col2 为空则用 Col3 更新 Col4 如果 Col2 不为 null 则在 Col1 中查找与 Col2 中的值匹配的值使用 col3 中的相应
如何在 Spring Data 中选择不同的结果

我在使用简单的 Spring Data 查询或 Query 或 QueryDSL 在 Spring Data 中构建查询时遇到问题如何选择三列研究国家登录不同的行并且查询结果将是用户对象类型的列表 Table User Id S
在 Mysql 上使用 EntityManager JPA 运行脚本

我正在尝试运行脚本 sql 文件但由于我尝试了多种方法因此出现多个错误这是我的主要 sql 脚本 INSERT INTO Unity VALUES 11 paq 0 2013 04 15 11 41 37 Admin Paquete
在 MS Access SQL 查询中从正常日期转换为 unix 纪元日期

我正在尝试编写一个通过 ODBC 连接到 MySQL 数据库的 MS Access 2007 连接的查询一切工作正常查询执行我想要的操作我挂断的部分是我一直在询问用户 unix 纪元时间而不是常规日期我查找了 MS Access
自动删除主键序列中的间隙

我正在创建一个网页该网页根据用户操作将数据存储到 MySQL 数据库中数据库有很多行行的主键是列 rowID 它只是按顺序对行进行编号例如 1 2 3 4 用户可以选择删除行问题是当用户删除最后一行以外的行时 rowID 中有一个
hive sql查找最新记录

该表是 create table test id string name string age string modified string 像这样的数据 id name age modifed 1 a 10 2011 11 11 11 1
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst

随机推荐

如何使用向量化从数组中选择最接近数组中值的值？

我有一个值数组我想根据线性最接近的选择从一系列选择中替换这些值问题是选择的大小是在运行时定义的 import numpy as np a np array 0 0 0 4 4 4 9 9 9 choices np array 1 5 1
设置 Fullcalendar 单元格背景颜色

我看到了几个关于如何在全日历中设置单元格背景颜色的主题但它们都不适合我我猜日历曾经使用日期来列出日期例如 fc day5 或 fc day17 但在版本 1 6 2 中不再这样做了我有一个正在渲染的多个事件的列表我想将它们的单元格
无法访问 Facebook 活动

我无法使用 Facebook Graph API 获取我的营销活动列表回应 me adaccounts data account id 123456789000001234 id act 123456789000001234 paging
Google Cloud 虚拟实例试用后消失？

我创建了两个虚拟机实例审判结束后他们就消失了我已经在计算引擎菜单中搜索但找不到任何内容你知道我是否可以恢复它们或者我能做什么吗试用结束后您在试用期间创建的资源将停止但如果您在 30 天内升级到付费帐户则可以恢复在这 30
如何向 .NET 4.5 WCF 服务添加异步支持，使其不会中断现有客户端？

我有一个带有 SOAP 端点的现有 WCF 服务使用 NET 4 5 大多数现有的客户端代码都使用ChannelFactory
ProgramFiles64Folder 正在安装到 WIX 安装程序中的 \Program Files (x86)\

我目前有两个 WIX 项目一个用于创建 x86 安装程序另一个用于创建 x64 安装程序我想将这两个项目合并为一个使用变量来控制程序流程的项目我有以下内容
编码 UI 播放 - 在特定文本框中输入文本时抛出错误（使用 javaScript 过滤击键）

我刚刚开始编写一些编码的 ui 测试当我尝试在文本框中输入一个值时我在播放过程中遇到了问题该文本框通过 javaScript 函数仅限于数字十进制值我已将该脚本确定为罪魁祸首因为测试在禁用该脚本时成功运行我在测试中输入的值
CRTP：基于派生类内容启用基类中的方法

有没有办法从 CRTP 基类查询派生类的内容与 SFINAE 一起使用来启用或禁用基类方法我想要完成的事情可能如下所示 template
Excel 互操作打印

我需要使用以下打印设置打印 Excel 工作表的选定区域我使用 Range Select 选择的区域打印机 Microsoft XPS 文档编写器打印选择景观方向 A4正常边距一页适合尺寸表如何使用 Worksheet PrintOu
ggplot2facets：每个图的不同注释文本

我有以下生成的数据框称为 Raw Data Time Velocity Type 1 10 1 a 2 20 2 a 3 30 3 a 4 40 4 a 5 50 5 a 6 10 2 b 7 20 4 b 8 30 6 b 9 40 8
如何模块化这个react状态容器？

因此在工作中我们构建了这个很棒的状态容器挂钩以便在 React 应用程序和相关包中使用首先介绍一下这个钩子的一些背景以及在开始我想用它做什么之前我想要保留的内容这是工作代码您会注意到它带有注释可以轻松复制和粘贴以创建新的 S
如何在 Java 中为 TensorFlow DNNRegressor 提供输入？

我设法使用 DNNRegressor 编写了 TensorFlow python 程序我已经训练了模型并且能够通过手动创建的输入常量张量从 Python 中的模型中获得预测我还能够以二进制格式导出模型 import pandas
ArrayList 无法转换为 Parcelable

我收到以下错误 Key com BookStatus 期望 Parcelable 但值是 ArrayList ClassCastException ArrayList 无法转换为 Parcelable gt 及之后无法启动 Activit
C# 忽略证书错误？

我在向远程 Web 服务发出 Web 服务请求期间收到以下错误无法建立 SSL TLS 安全通道的信任关系 gt System Security Authentication AuthenticationException 根据验证过程
根据显示标题的长度动态定位 ActionBar Spinner 的右角箭头

在 Google 应用程序中右上角箭头的位置ActionBar Spinner适应当前显示的字符串的长度例如当旋转器的长度看起来更短时Family被挑选与何时熟人被选中我需要做什么才能让右角箭头根据标题的长度动态定位我的猜测是我可
在 C 中使用 fork()、pipe()、dup2() 和 exec() 时遇到问题

这是我的代码 include
Azure devops 中的 Docker 任务不接受“$(pwd)”作为变量

I tried to run a docker command through the docker task in Azure devops with the build in docker task As variable for th
删除 mongoid 中的嵌入文档

我有一个项目模型只有一个名称字段其中还有与 line items 的嵌入关系类项目包括 monoid document 字段名称 embeds many line items 结尾 class LineItem include m
Scala：返回对函数的引用

我想要一个 Scala 函数返回对另一个函数的引用这可能吗您可以返回一个函数类型这是由A gt B 在本例中从 Int 到 Int scala gt def f x Int Int gt Int n Int gt x n f x I
如何获取 Spark RDD 的 SQL row_number 等效项？

我需要为包含许多列的数据表生成行号的完整列表在 SQL 中这看起来像这样 select key value col1 col2 col3 row number over partition by key value order by c

如何获取 Spark RDD 的 SQL row_number 等效项？

如何获取 Spark RDD 的 SQL row_number 等效项？ 的相关文章

随机推荐

热门标签

如何获取 Spark RDD 的 SQL row_number 等效项？的相关文章