计算行的排名

2024-05-07

我想根据一个字段对用户 ID 进行排名。对于相同的字段值，排名应该相同。该数据位于 Hive 表中。

e.g.

user value
a       5
b       10
c       5
d       6

Rank
a - 1
c - 1
d - 3
b - 4

我怎样才能做到这一点？

可以使用rank使用 DataFrame API 的窗口函数：

import org.apache.spark.sql.functions.rank
import org.apache.spark.sql.expressions.Window

val w = Window.orderBy($"value")

val df = sc.parallelize(Seq(
  ("a", 5), ("b", 10), ("c", 5), ("d", 6)
)).toDF("user", "value")

df.select($"user", rank.over(w).alias("rank")).show

// +----+----+
// |user|rank|
// +----+----+
// |   a|   1|
// |   c|   1|
// |   d|   3|
// |   b|   4|
// +----+----+

或原始 SQL：

df.registerTempTable("df")
sqlContext.sql("SELECT user, RANK() OVER (ORDER BY value) AS rank FROM df").show

// +----+----+
// |user|rank|
// +----+----+
// |   a|   1|
// |   c|   1|
// |   d|   3|
// |   b|   4|
// +----+----+

但效率极低。

您还可以尝试使用 RDD API，但它并不那么简单。首先让我们将 DataFrame 转换为 RDD：

import org.apache.spark.sql.Row
import org.apache.spark.rdd.RDD
import org.apache.spark.RangePartitioner

val rdd: RDD[(Int, String)] = df.select($"value", $"user")
  .map{ case Row(value: Int, user: String) => (value, user) }

val partitioner = new RangePartitioner(rdd.partitions.size,  rdd)
val sorted =  rdd.repartitionAndSortWithinPartitions(partitioner)

接下来我们必须计算每个分区的排名：

def rank(iter: Iterator[(Int,String)]) =  {
  val zero = List((-1L, Integer.MIN_VALUE, "", 1L))

  def f(acc: List[(Long,Int,String,Long)], x: (Int, String)) = 
    (acc.head, x) match {
      case (
        (prevRank: Long, prevValue: Int, _, offset: Long),
        (currValue: Int, label: String)) => {
      val newRank = if (prevValue == currValue) prevRank else prevRank + offset
      val newOffset = if (prevValue == currValue) offset + 1L else 1L
      (newRank, currValue, label, newOffset) :: acc
    }
  }

  iter.foldLeft(zero)(f).reverse.drop(1).map{case (rank, _, label, _) =>
    (rank, label)}.toIterator
}


val partRanks = sorted.mapPartitions(rank)

每个分区的偏移量

def getOffsets(sorted: RDD[(Int, String)]) = sorted
  .mapPartitionsWithIndex((i: Int, iter: Iterator[(Int, String)]) => 
    Iterator((i, iter.size)))
  .collect
  .foldLeft(List((-1, 0)))((acc: List[(Int, Int)], x: (Int, Int)) => 
    (x._1, x._2 + acc.head._2) :: acc)
  .toMap

val offsets = sc.broadcast(getOffsets(sorted))

以及最终排名：

def adjust(i: Int, iter: Iterator[(Long, String)]) = 
  iter.map{case (rank, label) => (rank + offsets.value(i - 1).toLong, label)}

val ranks = partRanks
  .mapPartitionsWithIndex(adjust)
  .map{case (i, label) => (1 + i , label)}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

hive

apachesparksql

计算行的排名的相关文章

两个 pandas 列的字符串连接

我有一个关注者DataFrame from pandas import df DataFrame foo a b c bar 1 2 3 它看起来像这样 bar foo 0 1 a 1 2 b 2 3 c 现在我想要这样的东西 bar 0
如何使用scala获取elasticsearch中_delete_by_query api的状态

我正在 scala 中向 elasticsearch 发送 HTTP post Http s http elkIp 5051 indexName delete by query postData s query terms zip id k
Kafka 分区键无法正常工作

我正在努力解决如何正确使用分区键机制的问题我的逻辑是设置分区号为3 然后创建三个分区键为 0 1 2 然后使用分区键创建三个KeyedMessage 例如 KeyedMessage 主题 0 消息 KeyedMessage 主题 1 消息
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
Python/从每个包含类似字符串对象的 Pandas 数据框单元格中去除空格的有效方法

我正在将 CSV 文件读入 DataFrame 中我需要从所有类似字符串的单元格中删除空格在 Python 2 7 中保持其他单元格不变这是我正在做的事情 def remove whitespace x if isinstance x
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
从另一个数据帧创建一个数据帧（使用数据透视）

我对熊猫有疑问我有一个包含三列的数据框 id1 id2 amount 由此我想创建另一个数据框其索引为 id1 其列为 id2 单元格包含相应的金额我们来看一个例子 import pandas as pd df pd DataFr
Scala：类型参数中的问号

我试图理解以下代码来自 Scalaz 库 def kleisliIdApplicative R Applicative Kleisli Id R 我假设一种形式T P0 是一个带有参数的类型构造函数但是我无法找到解释类型参数中问号用法的
如何关闭 Scala 中因方法重载而导致代码无法编译的特定隐式？

我正忙着尝试自己回答这个问题 Scala Play 2 4 x 通过 anorm MySQL 处理扩展字符到 Java Mail https stackoverflow com questions 31417718 scala play 2
当泛型类型与无界通配符一起使用时，不考虑类型参数绑定

在我的项目中我有一个这样的星座 trait F trait X A lt F def test x X X lt F x Trait X有一个类型参数其上限为F 根据我的理解类型X and X lt F 应该是等价的但scalac2
Scala 中的随机列表[重复]

这个问题在这里已经有答案了我对 scala 中的随机播放列表有疑问使用scala util Random 例如我有 val a cyan val b magenta val c yellow val d key val color Ra
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
实现只有一个居民的类型的价值

感谢 MilesSabin 的answer https stackoverflow com a 32157259 867671我可以编写类型级别的斐波那契序列 sealed trait Digit case object Zero exte
如何计算分类值（包括零出现）？

我想按月计算代码数量这是我的示例数据框 id month code 0 sally 0 s A 1 sally 0 s B 2 sally 0 s C 3 sally 0 s D 4 sally 0 s E 5 sally 0 s A 6
使用 dtypes read_csv 但列中没有值[重复]

这个问题在这里已经有答案了我使用以下代码来读取 csv 通过指定每个列的类型 clean pdf type pd read csv table updated csv usecols col names dtype col types 但
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所

随机推荐

ArticxEngine.exe 中 0x777122D2 (ntdll.dll) 处未处理的异常：0xC0000005：访问冲突写入位置 0x00000004

我完全不确定为什么在 VS2012 中运行程序时会出现此错误 Visual Studio 似乎将问题引向sf RenderWindow Articx window in Articx cpp ArticxEngine exe 中 0x777
使用 %w[] 创建包含空字符串的数组

创建包含空字符串的数组 a b c 不是一个空格字符串使用 W我可以用 W a b c 我也可以连接数组但是是否可以使用空字符串创建数组 w 几个选项 W a b c z W a b c lt lt 我知道这没有使用 w 语法但为了更
如何从 obj-c / ios 中的堆栈跟踪获取源代码行

I use NSSetUncaughtExceptionHandler将堆栈跟踪打印到 iPhone 中的本地文件该文件将在下次应用程序启动时发送到我们的服务器然后我可以检查异常数据并修复错误在某些崩溃中我有模块名称和引发异常的函数
如何在图片上方画一条线？

如何在 Crystal Reports 中的图片上方显示一条线我目前使用的是水晶报表 8 5 我在报告中使用 jpeg 图像并将图像标题部分设置为底层以下部分我在图像标题部分上方添加了另一个标题画了一条线然后给出了在下面的部分
是否可以用 C 语言编写 malloc 的一致实现？

这是后续字符数组可以与任何数据类型一起使用吗 https stackoverflow com questions 38510557 我了解动态内存和 malloc 的常见实现可以在以下位置找到参考资料维基百科 https en wikip
我应该在 Android 1.x 和 2.x 应用程序中部署什么样的图标？

事情是这样的在 Android 1 5 和 1 6 中我们有图标设计指南 http developer android com guide practices ui guidelines icon design html 本指南中有应用程
哪个版本的 ruby bug 较少？

我最近编写了一些复杂的 ruby 脚本最终会在随机时间和随机位置因段错误而失败例如 nokogiri mechanize inov 超时我在 Windows 7 下的 1 9 1 p 129 1 8 6 p 369 和 ubuntu
Angular2：如何在实现 routerCanDeactivate 时防止/取消历史操作？

routerCanDeactivate 成功阻止导航离开组件 routerCanDeactivate nextInstruction ComponentInstruction prevInstruction ComponentInstruc
反应。如何将 props 从 onClick 传递到 function

我是反应新手我正在尝试创建一个应用程序在其中我可以单击按钮并且函数将运行倒计时器但是如果我从 onClick 传递道具来开始像这样的函数 onClick begin props subject 该函数将在我点击之前运行如果我在不带
收到警告：空值被聚合或其他 SET 操作消除

我有这个架构 create table t id int d date insert into t id d values 1 getdate 2 NULL 做的时候 declare mindate date select mindate
始终保持数据库连接打开可以吗？

我在业余时间从事单用户桌面数据库应用程序之类的工作并且我总是不确定我所做的设计选择现在就目前情况而言每当用户想要与数据库这是一个本地 SQLite 数据库因此通常只有一个用户一次看到它交互时应用程序就会创建一个新连接执行它
如何在 Bash 中将字符串转换为小写

有办法进去吗bash questions tagged bash将字符串转换为小写字符串例如如果我有 a Hi all 我想将其转换为 hi all 有多种方法 POSIX标准 https en m wikipedia org wiki
AxAcroPDF - Vista64 类未注册错误

我们有一个用 C 编写的 WinForms 应用程序它使用 AxAcroPDFLib AxAcroPDF 组件来加载和打印 PDF 文件在 Windows XP 下一直运行没有任何问题我已将开发环境移至 Vista 64 位现在除非
flutter 检测 url 并显示预览

我正在尝试制作一个类似于 wats app 的链接预览功能它有两个部分从文本字段检测 URL 显示该 URL 的预览第 2 部分有很多插件可以显示预览但我一直坚持第 1 部分即如何检测和解析用户在文本字段中输入的 URL 还有一个
VB.NET 中的自动递增文本框

单击按钮后如何增加文本框内容将其放在按钮单击事件中 Dim int As Integer Integer TryParse TextBox1 Text int TextBox1 Text int 1
Enzyme 和 React 路由器：如何使用 useHistory 浅层渲染组件

我一直在尝试用以下方式渲染组件shallow 由enzyme 该组件正在使用useHistory from react router dom const baseMatch match lt id string gt path url pa
如何实现复杂的sql命令

我在 MySQL 中有一个 sql 表其中包含以下记录 user dob john 1 10 96 jane 3 4 97 jill 1 8 96 jack 2 9 00 jane 12 14 07 john 1 11 98 这是我要执行
为什么 HttpClient 使套接字保持打开状态？

在创建使用和处置多个 HttpClient 时我注意到有套接字处于 TIME WAIT 状态例如运行以下命令后 using System Net Http namespace HttpClientTest public class
使用在 Linux 上运行的 .NET Core 时连接到 MongoDB 失败

我正在使用 ASP NET Core 2 0 构建一个网站一个月前刚刚从 1 1 升级 MongoDB 也由 Mongo Atlas 在 AWS 上托管这个 MongoDB 实例有 3 个副本集需要 SSL 进行连接并且已经设置可以
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra

计算行的排名

计算行的排名 的相关文章

随机推荐

热门标签

计算行的排名的相关文章