在 Spark SQL 中查找多个双数据类型列的中位数

2023-11-26

我需要找到多个双数据类型列的中位数。请求建议以找到正确的方法。

下面是我的示例数据集，其中有一列。我期望我的样本的中值返回为 1。

  scala> sqlContext.sql("select num from test").show();
+---+
|num|
+---+
|0.0|
|0.0|
|1.0|
|1.0|
|1.0|
|1.0|
+---+

我尝试了以下选项

1) Hive UDAF 百分位数，仅适用于 BigInt。

2) Hive UDAT percentile_approx，但它没有按预期工作（返回 0.25 vs 1）。

sqlContext.sql("从测试中选择percentile_approx(num,0.5)").show();

+----+
| _c0|
+----+
|0.25|
+----+

3）Spark窗口函数percent_rank-查找中位数的方法是查找所有高于0.5的percent_rank并选择最大percent_rank对应的num值。但它并不适用于所有情况，特别是当我有偶数记录计数时，在这种情况下，中位数是排序分布中中间值的平均值。

同样在percent_rank中，由于我必须找到多列的中位数，所以我必须在不同的数据帧中计算它，这对我来说是一个不太复杂的方法。如果我的理解不正确，请纠正我。

+---+-------------+
|num|percent_rank |
+---+-------------+
|0.0|0.0|
|0.0|0.0|
|1.0|0.4|
|1.0|0.4|
|1.0|0.4|
|1.0|0.4|
+---+---+

出于好奇，您使用的是哪个版本的 Apache Spark？ Apache Spark 2.0+ 中进行了一些修复，其中包括对approxQuantile.

如果我要运行下面的 pySpark 代码片段：

rdd = sc.parallelize([[1, 0.0], [1, 0.0], [1, 1.0], [1, 1.0], [1, 1.0], [1, 1.0]])
df = rdd.toDF(['id', 'num'])
df.createOrReplaceTempView("df")

与median计算使用approxQuantile as:

df.approxQuantile("num", [0.5], 0.25)

spark.sql("select percentile_approx(num, 0.5) from df").show()

结果是：

火花2.0.0: 0.25
火花2.0.1: 1.0
火花2.1.0: 1.0

请注意，因为这些是近似数字（通过approxQuantile）虽然一般来说这应该运作良好。如果您需要精确的中位数，一种方法是使用numpy.median。下面的代码片段已为此更新df基于 gench 的 SO 响应的示例如何使用 Python Dataframe API 在 Apache Spark 中查找中位数？:

from pyspark.sql.types import *
import pyspark.sql.functions as F
import numpy as np

def find_median(values):
    try:
        median = np.median(values) #get the median of values in a list in each row
        return round(float(median),2)
    except Exception:
        return None #if there is anything wrong with the given values

median_finder = F.udf(find_median,FloatType())

df2 = df.groupBy("id").agg(F.collect_list("num").alias("nums"))
df2 = df2.withColumn("median", median_finder("nums"))

# print out
df2.show()

输出为：

+---+--------------------+------+
| id|                nums|median|
+---+--------------------+------+
|  1|[0.0, 0.0, 1.0, 1...|   1.0|
+---+--------------------+------+

更新：使用 RDD 的 Spark 1.6 Scala 版本

如果您使用的是 Spark 1.6，您可以计算median通过 Eugene Zhulenev 的回复使用 Scala 代码如何使用 Apache Spark 计算准确的中位数。下面是适用于我们的示例的修改后的代码。

import org.apache.spark.SparkContext._

  val rdd: RDD[Double] = sc.parallelize(Seq((0.0), (0.0), (1.0), (1.0), (1.0), (1.0)))

  val sorted = rdd.sortBy(identity).zipWithIndex().map {
    case (v, idx) => (idx, v)
  }

  val count = sorted.count()

  val median: Double = if (count % 2 == 0) {
    val l = count / 2 - 1
    val r = l + 1
    (sorted.lookup(l).head + sorted.lookup(r).head).toDouble / 2
  } else sorted.lookup(count / 2).head.toDouble

输出为：

// output
import org.apache.spark.SparkContext._
rdd: org.apache.spark.rdd.RDD[Double] = ParallelCollectionRDD[227] at parallelize at <console>:34
sorted: org.apache.spark.rdd.RDD[(Long, Double)] = MapPartitionsRDD[234] at map at <console>:36
count: Long = 6
median: Double = 1.0

请注意，这是使用以下方法计算精确中位数RDDs- 也就是说，您需要将 DataFrame 列转换为 RDD 才能执行此计算。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Spark SQL 中查找多个双数据类型列的中位数的相关文章

为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
如何从字符串列中提取数字？

我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d

随机推荐

如何使用 JQuery 更改 onClick 复选框的值？

在这里我尝试在单击以下复选框时更改其值在下面的代码中我尝试将复选框的值更改为 1 并在未选中时将值更改为 0 但它只需要 false 条件当取消选中该复选框时值会更改为 0 但选中时它不会更改为 1 有什么建议如何解决此问题吗
如何在 SceneKit 中的“自己”轴上移动旋转的 SCNNode？

下图显示了一个旋转框应在 X 轴和 Z 轴上水平移动 Y 应该不受影响以简化场景这个盒子也可能是相机的 SCNNode 所以我想此时投影没有意义假设我们想要沿着红色箭头的方向移动盒子如何使用 SceneKit 来实现这一点红色箭
具有 Robocopy 和参数传递的 Powershell

我正在尝试编写一个使用的脚本robocopy 如果我只是手动执行此操作我的命令将是 robocopy c hold test1 c hold test2 test txt NJH NJS 但是当我从 powershell 执行此操作时
如何存储CLLocationCooperative2D？

我正在尝试构建一个应用程序该应用程序可以构建和保存类似于绘制我的跑步路线的路线我正在使用面包屑示例代码特别是CrumbPath and CrumbPathView作为我路线的基础来自 Apple 两个问题如果我尝试访问MKMapP
使用 C# 和 Google.Apis.YouTube.v3 列出 YouTube 视频

我正在尝试使用最新版本的 Google Apis YouTube v3 截至 2014 年 1 月 15 日执行一些 YouTube 视频交互我已经完成了以下内容的 NuGet Google Apis YouTube v3 Google
如何在 Python 中访问私有变量？ [复制]

这个问题在这里已经有答案了 class Car object def init self color engine oil self color color self engine engine self oil oil a Car bla
iPhone 的闪存有多少个编程/擦除周期？ [关闭]

Closed 这个问题是无关目前不接受答案不确定这是解决这个问题的正确网站但由于这里有很多聪明人也许有人知道我正在构建一个需要连续捕获视频的应用程序但只保留最后几分钟比如 5 15 分钟通过将视频分割为 30 秒的文件并删除
如何仅使用 XPath 和 C# .NET 获取元素内容

我找到了很多关于如何使用简单的XPath表达式和C 获取节点内容的文章例如 XPath bookstore author first name C string xpathExpression bookstore author first
R 中水平树状图的树切割和簇周围的矩形

我正在尝试绘制层次聚类的结果R作为树状图用矩形标识簇以下代码适用于垂直树状图但对于水平树状图 horiz TRUE 则不绘制矩形有什么方法可以对水平树状图做同样的事情吗 library cluster dst lt daisy ir
Java 代码 - 字节数组中的负字节到 C#

在Java中我有以下行 new byte 59 55 79 1 0 64 32 3 但是在 C 中我不能在字节数组中使用负字节我尝试将其转换为字节但失败了我能做些什么谢谢因为在 C 中字节是unsigned 在Java中字节
Bitvise SH 客户端安装错误。 CreateDirectory() 失败：Windows 错误 5：访问被拒绝

我正在尝试安装 bit vise ssh 客户端但它没有安装并抛出异常捕获异常 Failed to create directory C Program Files x86 Common Files Bitvise CreateDire
更改 R 中 ggplot 中组的顺序

我在用ggplot绘制条形图如何更改栏中组的顺序在下面的示例中我希望将 type 1984 作为第一堆条形图然后将 type 1985 放在 1984 的顶部依此类推 series lt data frame time c rep
Python 双向映射

我不知道该怎样称呼我正在寻找的东西因此如果我未能在其他地方找到这个问题我深表歉意简而言之我正在编写将直接与 Linux 内核交互的 python 代码很容易从包含头文件中获取所需的值并将它们写入我的源代码 IFA UNSPEC
将项目列表转换为树的好且通用的方法

我有类别列表 Id Name Parent id 1 Sports 0 2 Balls 1 3 Shoes 1 4 Electronics 0 5 Cameras 4 6 Lenses 5 7 Tripod 5
PhantomJS 没有使用网络字体渲染屏幕截图？

所以我一直在四处寻找似乎找不到如何让 PhantomJS 在屏幕截图上实际显示网页字体的解决方案有人能告诉我是否有办法做到这一点我已经测试了大约一周终于得出了答案知道这也可能是我在 Windows 机器上运行 PhantomJS
如何在python3中安装COCO PythonAPI

看来COCO PythonAPI仅支持python2 但人们确实在 python3 环境中使用它我尝试了可能的方法来安装它例如 python3 setup py build ext inplace python3 setup py in
是否可以使用jQuery读取meta标签

是否可以使用 jQuery 读取元标记如果是这样您知道代码的基本结构是什么或者有任何教程的链接只需使用类似的东西 var author meta name author attr content 或这个也是如此 var author
JSF 中的 CSRF、XSS 和 SQL 注入攻击预防

我有一个基于 JSF 构建的 Web 应用程序并使用 MySQL 作为数据库我已经在我的应用程序中实现了防止 CSRF 的代码现在由于我的底层框架是 JSF 我想我不必处理 XSS 攻击因为它已经由UIComponent 我没有在任
IE7 和 IE8 中的框阴影

我想在 IE7 和 IE8 中实现框阴影我已经尝试了一切但没有成功这是我用来将彩色阴影应用于 div 的 css bright position absolute z index 1 moz box shadow 0px 3px 55p
在 Spark SQL 中查找多个双数据类型列的中位数

我需要找到多个双数据类型列的中位数请求建议以找到正确的方法下面是我的示例数据集其中有一列我期望我的样本的中值返回为 1 scala gt sqlContext sql select num from test show num 0

在 Spark SQL 中查找多个双数据类型列的中位数

更新：使用 RDD 的 Spark 1.6 Scala 版本

在 Spark SQL 中查找多个双数据类型列的中位数 的相关文章

随机推荐

热门标签

在 Spark SQL 中查找多个双数据类型列的中位数的相关文章