计算 Spark Dataframe 中分组数据的分位数

2023-11-23

我有以下 Spark 数据框：

 agent_id|payment_amount|
+--------+--------------+
|       a|          1000|
|       b|          1100|
|       a|          1100|
|       a|          1200|
|       b|          1200|
|       b|          1250|
|       a|         10000|
|       b|          9000|
+--------+--------------+

我的愿望输出是这样的

agen_id   95_quantile
  a          whatever is 95 quantile for agent a payments
  b          whatever is 95 quantile for agent b payments

对于每组 agent_id 我需要计算 0.95 分位数，我采用以下方法：

test_df.groupby('agent_id').approxQuantile('payment_amount',0.95)

但我犯了以下错误：

'GroupedData' object has no attribute 'approxQuantile'

我需要在新列中包含 0.95 分位数（百分位数），以便稍后可用于过滤目的

我使用的是 Spark 2.0.0

一种解决方案是使用percentile_approx :

>>> test_df.registerTempTable("df")
>>> df2 = sqlContext.sql("select agent_id, percentile_approx(payment_amount,0.95) as approxQuantile from df group by agent_id")

>>> df2.show()
# +--------+-----------------+
# |agent_id|   approxQuantile|
# +--------+-----------------+
# |       a|8239.999999999998|
# |       b|7449.999999999998|
# +--------+-----------------+

Note 1 :该解决方案已使用 Spark 1.6.2 进行测试，并且需要HiveContext.

Note 2 : approxQuantileSpark pyspark.

Note 3 : percentile返回组中数字列（包括浮点类型）的近似第 p 个百分位。当 col 中不同值的数量小于第二个参数值时，这会给出精确的百分位数值。

EDIT : From Spark 2+, HiveContext不需要。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

DataFrame

PySpark

apachesparksql

计算 Spark Dataframe 中分组数据的分位数的相关文章

如何将巨大的pandas数据帧保存到hdfs？

我正在使用 pandas 和 Spark 数据框数据帧总是非常大 gt 20 GB 标准 Spark 函数不足以满足这些大小目前我将 pandas 数据框转换为 Spark 数据框如下所示 dataframe spark creat
pandas 函数根据 dict 创建组合列

我正在尝试在中创建一个加权列pandas DataFrame 我有一条蟒蛇dictionary钥匙是pandas DataFrame列名称和相应权重的值我想创建一个新的列该列的权重基于dictionary和参考pandas DataFr
Pandas DataFrame：根据条件替换列中的所有值

我有一个简单的 DataFrame 如下所示 Team First Season Total Games 0 Dallas Cowboys 1960 894 1 Chicago Bears 1920 1357 2 Green Bay Pac
R和spark：比较不同地理点之间的距离

我正在处理纽约市出租车数据集该数据集的列包括日期时间接送纬度经度下车纬度经度等现在我想对纬度经度进行反向地理编码以找到行政区社区我有两个数据框 1 第一个数据框包含我想要用最近的纽约社区名称进行分类的所有点 2 第二个数据
Python / Pyspark - 计数 NULL、空和 NaN

我想计算列中的 NULL 空和 NaN 值我尝试过这样的 df filter df ID df ID isNull df ID isnan count 但我总是收到此错误消息 TypeError Column object is not
Spark Driver 内存和 Application Master 内存

我是否正确理解客户端模式的文档客户端模式与驱动程序在应用程序主机中运行的集群模式相反在客户端模式下驱动程序和应用程序主机是单独的进程因此spark driver memory spark yarn am memory一定小于机器内存
如何将 defaultdict(list) 转换为 Pandas DataFrame

我有一个具有以下结构的 defaultdict list 对象 id list list 例如 a1 0 01 cat a2 0 09 cat a3 0 5 dog 我想转换这个defaultdict list into a Pandas
将数据帧中的 NaN 转换为零

我有字典并使用创建了 Pandas cars pd DataFrame from dict cars dict orient index 和对索引进行排序按字母顺序排列汽车 cars sort index axis 1 排序后我注意到
如何根据一列的字符串相似度链接两个数据框

我有两个数据框都有一个 ID 和一个列Name包含字符串它们可能看起来像这样数据框 DF 1 DF 2 ID Name ID Name 1 56 aaeessa 1 12 H P paRt 1 2 98 1o7v9sM 2 76 aa
通过Listener获取Spark thrift服务器查询中读取的行数

我正在尝试为我们的 ST 服务器构建一个监控系统到目前为止诸如记录查询检索的行红色和花费的时间之类的事情都很好我已经实现了一个自定义侦听器我能够毫无问题地检索查询和时间侦听SparkListenerSQLExecutionSt
通过相邻行的差异过滤 pandas 数据框

我有一个按日期时间索引的数据框我想根据行的索引与前一行的索引之间的差异来过滤行因此如果我的标准是删除比前一行晚一小时以上的所有行则应删除下面示例中的第二行 2005 07 15 17 00 00 2005 07 17 18 00
如何将 Python pandas 转换为 Julia DataFrame（使用 PyJulia）并返回 Python Pandas

我想用PyJulia加速代码的某些部分 import numpy as np import julia import pandas as pd import random from julia import Base from julia
如何向多重索引添加级别？

index np array foo foo qux np array a b a data np random randn 3 2 columns X Y df pd DataFrame data index index columns
检查 pyspark df 列的值是否存在于其他 pyspark df 列中

我有 2 个 pyspark 数据帧我想检查一列的值是否存在于另一个数据帧的列中我只看到了如何过滤存在的值的解决方案像这样 https stackoverflow com questions 41775281 filtering a
将函数应用于数据框的所有元素

我正在尝试对数据框中的所有元素应用一些转换当使用常规应用函数时我得到一个矩阵而不是数据帧有没有办法直接获取数据框而不添加as data frame到每一行 df data frame a LETTERS 1 5 b LETTERS 6
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
在使用 Phoenix 4.5 的 CDH 5.4 上运行 Spark 作业时未找到 PhoenixOutputFormat

我通过重新编译源代码设法在 Cloudera CDH 5 4 上配置 Phoenix 4 5 sqlline py效果很好但火花有问题 spark submit class my JobRunner master yarn deploy
Spark UDF 错误 - 不支持 Any 类型的架构

我正在尝试创建一个 udf 它将列中的负值替换为 0 我的数据框名为 df 包含一列名为 avg x 这是我创建 udf 的代码 val noNegative udf avg acc x Double gt if avg acc x lt
pySpark 映射多列

我需要能够使用多列比较两个数据帧 pySpark尝试 get PrimaryLookupAttributeValue values from reference table in a dictionary to compare them t
Spark中分布式读取CSV文件

我正在开发一个 Spark 处理框架它读取大型 CSV 文件将它们加载到 RDD 中执行一些转换最后保存一些统计数据相关 CSV 文件平均大小约为 50GB 我正在使用 Spark 2 0 我的问题是当我使用sparkConte

随机推荐

str_replace_all 迭代替换命名向量元素，而不是一次全部替换

假设我有一个很长的字符串 pneumonoultramicroscopesilicovolcanoconiosis 我想用stringr str replace all用其他字母替换某些字母根据文档 str replace all可以采用
Expressjs 不会破坏会话

我有一个 Backbone View 它向服务器发送 Ajax 调用以删除会话在服务器上触发以下事件 app delete session function req res if req session req session destr
使用 awk 或 sed 删除列

我有一个包含三列的文件我想删除第三列就地编辑我怎样才能用 awk 或 sed 做到这一点 123 abc 22 3 453 abg 56 7 1236 hjg 2 3 所需输出 123 abc 453 abg 1236 hjg 尝试这
正则表达式：我想要这个、那个、那个……以任何顺序

我什至不确定这是否可能但这就是我想要的 String NS306 FEBRUARY 20078 9 201013B1 9 1Low31 AUGUST 19870 我有一个文本框可以在其中输入搜索参数它们以空格分隔因此我想返回一个匹
Twitter Bootstrap -
的两列布局

在 Bootstrap 2 3 中是否有一种标准化的方法来为 HTML 提供两列布局
Jenkins，SSH 插件，传输 0 个文件

我们是一个三人小组使用 MEANJS 做一个项目 Bitbucket 是我们的源代码控制我们使用 Jenkins 进行测试自动化和 CI 我们希望使用 Jenkins 从 Bitbucket 中拉取构建并运行测试然后通过 SSH 将
使用 Java 并行/多线程编写现有代码

我有一个非常简单的爬虫我想让我当前的代码在几个线程中运行您能为我提供一些教程或文章来帮助我完成此测试吗我最初是一名 Net 开发人员在 Net 中我在多线程中运行代码没有任何问题但不幸的是我对 Java 中的线程一无所知我的爬
TCP 连接保持活动状态

我正在创建一个客户端服务器应用程序服务器已经设计并就位等待来自客户端的连接现在在客户端部分我希望在应用程序的整个生命周期中保持连接处于活动状态并且仅当主客户端应用程序关闭或关闭或服务器关闭它时连接才会关闭目前服务器每 10 秒
Dask 不支持项目分配

我们可以通过哪些方式在 Dask 数组中执行项目分配即使是非常简单的项目分配例如 a 0 2 不起作用正确的这是文档中指出的第一个限制一般来说涉及 for 循环和直接分配各个元素的工作流程很难并行化 Dask 阵列没有进行此尝试
CNN 与 keras，准确性没有提高

我最近开始学习机器学习我正在学习CNN 我计划在这个的帮助下编写一个用于汽车损坏严重程度检测的应用程序喀拉斯博客和这个github 仓库汽车数据集如下所示 F WORKSPACE ML CAR DAMAGE DETECTOR DATAS
将 tumblr 博客与网站集成

我想将我的 tumblr feed 集成到我的网站中 tumblr 似乎有一个 API 但我不太清楚如何使用它据我了解我请求该页面 tumblr 返回一个包含我博客内容的 xml 文件但是我怎样才能把这个 xml 变成有意义的 htm
Access 2010 中的 WHERE 区分大小写

我必须将数据从 Paradox 数据库导入到新创建的 WPF SQL Server 应用程序中我已成功将必要的悖论数据导入到 Access 中现在正在编写一个实用程序来转换数据并将其导入到 SQL Server 中现在我遇到的问题是悖
当 IDENTITY_INSERT 设置为 OFF 时，SQL 无法在表“Table”中插入标识列的显式值[重复]

这个问题在这里已经有答案了 sqlfiddle上的结构表和结果查询我想使用查询 INSERT INTO Price id price id firm id city name VALUES 12002 1429 73041 25 1200
r 中带有重叠圆圈（填充和大小）的行列热图

这是我正在尝试开发的图表我有行和列坐标变量还有三个定量变量 rectheat 填充矩形热图 circlesize 圆圈大小 circlefill 填充颜色热图 NA 应该缺失以不同的颜色例如灰色表示以下为数据 set seed 1
Android 架构组件 ViewModel - 如何在测试 Activity 上模拟 ViewModel？

我正在尝试设置类似于Github浏览器示例看起来示例项目只有模拟ViewModel for Fragment但不是一个例子Activity 这是我试图测试的代码Activity通过嘲笑ViewModel 但是ViewModel之前没有设置好
我怎样才能捕获 404？

我有以下代码 HttpWebRequest request HttpWebRequest WebRequest Create url request Method HEAD request Credentials MyCredentialC
Vuejs：如何将对象作为 prop 传递并让组件更新子对象

我正在尝试创建一个接受对象作为 prop 的组件并且可以使用同步或发出事件修改该对象的不同属性并将值返回给父级该示例不起作用但它只是为了演示我想要实现的目标这是我想要实现的目标的一个片段 Vue component child te
Delphi 2009，Indy 10，TIdTCPServer.OnExecute，如何抓取InputBuffer中的所有字节

我正在摆弄 Delphi 2009 提供的 Indy 10 并且在 OnExecute 触发时无法从 IOHandler 获取所有数据 procedure TFormMain IdTCPServerExecute AContext TIdC
如何专注于 Scala 中的类型投影？

问题陈述考虑一个类型T包含一个抽象类型成员A trait T type A 我想创建一个需要T0 lt T作为类型参数但专门针对类型投影 T0 A 例如下面的方法可以foo专业化 class Foo T0 lt T def foo a
计算 Spark Dataframe 中分组数据的分位数

我有以下 Spark 数据框 agent id payment amount a 1000 b 1100 a 1100 a 1200 b 1200 b 1250 a 10000 b 9000 我的愿望输出是这样的 agen id 95 qu

计算 Spark Dataframe 中分组数据的分位数

计算 Spark Dataframe 中分组数据的分位数 的相关文章

随机推荐

热门标签

计算 Spark Dataframe 中分组数据的分位数的相关文章