计算 Spark Dataframe 中分组数据的分位数

2023-11-23

我有以下 Spark 数据框:

 agent_id|payment_amount|
+--------+--------------+
|       a|          1000|
|       b|          1100|
|       a|          1100|
|       a|          1200|
|       b|          1200|
|       b|          1250|
|       a|         10000|
|       b|          9000|
+--------+--------------+

我的愿望输出是这样的

agen_id   95_quantile
  a          whatever is 95 quantile for agent a payments
  b          whatever is 95 quantile for agent b payments

对于每组 agent_id 我需要计算 0.95 分位数,我采用以下方法:

test_df.groupby('agent_id').approxQuantile('payment_amount',0.95)

但我犯了以下错误:

'GroupedData' object has no attribute 'approxQuantile'

我需要在新列中包含 0.95 分位数(百分位数),以便稍后可用于过滤目的

我使用的是 Spark 2.0.0


一种解决方案是使用percentile_approx :

>>> test_df.registerTempTable("df")
>>> df2 = sqlContext.sql("select agent_id, percentile_approx(payment_amount,0.95) as approxQuantile from df group by agent_id")

>>> df2.show()
# +--------+-----------------+
# |agent_id|   approxQuantile|
# +--------+-----------------+
# |       a|8239.999999999998|
# |       b|7449.999999999998|
# +--------+-----------------+ 

Note 1 :该解决方案已使用 Spark 1.6.2 进行测试,并且需要HiveContext.

Note 2 : approxQuantileSpark pyspark.

Note 3 : percentile返回组中数字列(包括浮点类型)的近似第 p 个百分位。当 col 中不同值的数量小于第二个参数值时,这会给出精确的百分位数值。

EDIT : From Spark 2+, HiveContext不需要。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

计算 Spark Dataframe 中分组数据的分位数 的相关文章

随机推荐

  • str_replace_all 迭代替换命名向量元素,而不是一次全部替换

    假设我有一个很长的字符串 pneumonoultramicroscopesilicovolcanoconiosis 我想用stringr str replace all用其他字母替换某些字母 根据文档 str replace all可以采用
  • Expressjs 不会破坏会话

    我有一个 Backbone View 它向服务器发送 Ajax 调用以删除会话 在服务器上触发以下事件 app delete session function req res if req session req session destr
  • 使用 awk 或 sed 删除列

    我有一个包含三列的文件 我想删除第三列 就地编辑 我怎样才能用 awk 或 sed 做到这一点 123 abc 22 3 453 abg 56 7 1236 hjg 2 3 所需输出 123 abc 453 abg 1236 hjg 尝试这
  • 正则表达式:我想要这个、那个、那个……以任何顺序

    我什至不确定这是否可能 但这就是我想要的 String NS306 FEBRUARY 20078 9 201013B1 9 1Low31 AUGUST 19870 我有一个文本框 可以在其中输入搜索参数 它们以空格分隔 因此 我想返回一个匹
  • Twitter Bootstrap -
    的两列布局

    在 Bootstrap 2 3 中 是否有一种标准化的方法来为 HTML 提供两列布局
  • Jenkins,SSH 插件,传输 0 个文件

    我们是一个三人小组 使用 MEANJS 做一个项目 Bitbucket 是我们的源代码控制 我们使用 Jenkins 进行测试自动化和 CI 我们希望使用 Jenkins 从 Bitbucket 中拉取 构建并运行测试 然后通过 SSH 将
  • 使用 Java 并行/多线程编写现有代码

    我有一个非常简单的爬虫 我想让我当前的代码在几个线程中运行 您能为我提供一些教程或文章来帮助我完成此测试吗 我最初是一名 Net 开发人员 在 Net 中 我在多线程中运行代码没有任何问题 但不幸的是我对 Java 中的线程一无所知 我的爬
  • TCP 连接保持活动状态

    我正在创建一个客户端服务器应用程序 服务器已经设计并就位等待来自客户端的连接 现在 在客户端部分 我希望在应用程序的整个生命周期中保持连接处于活动状态 并且仅当主客户端应用程序关闭或关闭或服务器关闭它时 连接才会关闭 目前服务器每 10 秒
  • Dask 不支持项目分配

    我们可以通过哪些方式在 Dask 数组中执行项目分配 即使是非常简单的项目分配 例如 a 0 2 不起作用 正确的 这是文档中指出的第一个限制 一般来说 涉及 for 循环和直接分配各个元素的工作流程很难并行化 Dask 阵列没有进行此尝试
  • CNN 与 keras,准确性没有提高

    我最近开始学习机器学习 我正在学习CNN 我计划在这个的帮助下编写一个用于汽车损坏严重程度检测的应用程序喀拉斯博客和这个github 仓库 汽车数据集如下所示 F WORKSPACE ML CAR DAMAGE DETECTOR DATAS
  • 将 tumblr 博客与网站集成

    我想将我的 tumblr feed 集成到我的网站中 tumblr 似乎有一个 API 但我不太清楚如何使用它 据我了解 我请求该页面 tumblr 返回一个包含我博客内容的 xml 文件 但是我怎样才能把这个 xml 变成有意义的 htm
  • Access 2010 中的 WHERE 区分大小写

    我必须将数据从 Paradox 数据库导入到新创建的 WPF SQL Server 应用程序中 我已成功将必要的悖论数据导入到 Access 中 现在正在编写一个实用程序来转换数据并将其导入到 SQL Server 中 现在我遇到的问题是悖
  • 当 IDENTITY_INSERT 设置为 OFF 时,SQL 无法在表“Table”中插入标识列的显式值[重复]

    这个问题在这里已经有答案了 sqlfiddle上的结构表和结果查询 我想使用查询 INSERT INTO Price id price id firm id city name VALUES 12002 1429 73041 25 1200
  • r 中带有重叠圆圈(填充和大小)的行列热图

    这是我正在尝试开发的图表 我有行和列坐标变量 还有三个定量变量 rectheat 填充矩形热图 circlesize 圆圈大小 circlefill 填充颜色热图 NA 应该缺失以不同的颜色 例如灰色 表示 以下为数据 set seed 1
  • Android 架构组件 ViewModel - 如何在测试 Activity 上模拟 ViewModel?

    我正在尝试设置类似于Github浏览器示例看起来示例项目只有模拟ViewModel for Fragment但不是一个例子Activity 这是我试图测试的代码Activity通过嘲笑ViewModel 但是ViewModel之前没有设置好
  • 我怎样才能捕获 404?

    我有以下代码 HttpWebRequest request HttpWebRequest WebRequest Create url request Method HEAD request Credentials MyCredentialC
  • Vuejs:如何将对象作为 prop 传递并让组件更新子对象

    我正在尝试创建一个接受对象作为 prop 的组件 并且可以使用同步或发出事件修改该对象的不同属性并将值返回给父级 该示例不起作用 但它只是为了演示我想要实现的目标 这是我想要实现的目标的一个片段 Vue component child te
  • Delphi 2009,Indy 10,TIdTCPServer.OnExecute,如何抓取InputBuffer中的所有字节

    我正在摆弄 Delphi 2009 提供的 Indy 10 并且在 OnExecute 触发时无法从 IOHandler 获取所有数据 procedure TFormMain IdTCPServerExecute AContext TIdC
  • 如何专注于 Scala 中的类型投影?

    问题陈述 考虑一个类型T包含一个抽象类型成员A trait T type A 我想创建一个需要T0 lt T作为类型参数 但专门针对类型投影 T0 A 例如 下面的方法可以foo专业化 class Foo T0 lt T def foo a
  • 计算 Spark Dataframe 中分组数据的分位数

    我有以下 Spark 数据框 agent id payment amount a 1000 b 1100 a 1100 a 1200 b 1200 b 1250 a 10000 b 9000 我的愿望输出是这样的 agen id 95 qu