如何获取 pyspark 中 groupBy 之后每个计数的总数百分比？

2023-11-21

给定以下数据框：

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local").appName("test").getOrCreate()
df = spark.createDataFrame([['a',1],['b', 2],['a', 3]], ['category', 'value'])
df.show()


+--------+-----+
|category|value|
+--------+-----+
|       a|    1|
|       b|    2|
|       a|    3|
+--------+-----+

我想计算每个类别中的项目数量，并提供每个计数的总数百分比，如下所示

+--------+-----+----------+
|category|count|percentage|
+--------+-----+----------+
|       b|    1|     0.333|
|       a|    2|     0.667|
+--------+-----+----------+

您可以通过以下方式获取总数的计数和百分比/比率

import pyspark.sql.functions as f
from pyspark.sql.window import Window
df.groupBy('category').count()\
  .withColumn('percentage', f.round(f.col('count') / f.sum('count')\
  .over(Window.partitionBy()),3)).show()

+--------+-----+----------+
|category|count|percentage|
+--------+-----+----------+
|       b|    1|     0.333|
|       a|    2|     0.667|
+--------+-----+----------+

前面的陈述可以分为步骤。df.groupBy('category').count()产生count:

+--------+-----+
|category|count|
+--------+-----+
|       b|    1|
|       a|    2|
+--------+-----+

然后通过应用窗口函数，我们可以获得每行的总计数：

df.groupBy('category').count().withColumn('total', f.sum('count').over(Window.partitionBy())).show()

+--------+-----+-----+
|category|count|total|
+--------+-----+-----+
|       b|    1|    3|
|       a|    2|    3|
+--------+-----+-----+

哪里的total列是通过将分区（包含所有行的单个分区）中的所有计数相加来计算的。

一旦我们有count and total对于每一行，我们可以计算比率：

df.groupBy('category')\
  .count()\
  .withColumn('total', f.sum('count').over(Window.partitionBy()))\
  .withColumn('percentage',f.col('count')/f.col('total'))\
  .show()

+--------+-----+-----+------------------+
|category|count|total|        percentage|
+--------+-----+-----+------------------+
|       b|    1|    3|0.3333333333333333|
|       a|    2|    3|0.6666666666666666|
+--------+-----+-----+------------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

如何获取 pyspark 中 groupBy 之后每个计数的总数百分比？的相关文章

如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
PySpark - RDD 到 JSON

我有一个 Hive 查询返回以下格式的数据 ip category score 1 2 3 4 X 5 10 10 10 10 A 2 1 2 3 4 Y 2 12 12 12 12 G 10 1 2 3 4 Z 9 10 10 10 10
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF
Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise
如何在 PySpark 中使用 foreach 或 foreachBatch 写入数据库？

我想使用 Python PySpark 从 Kafka 源到 MariaDB 进行 Spark 结构化流处理 Spark 2 4 x 我想使用流式 Spark 数据帧而不是静态数据帧或 Pandas 数据帧看来必须要用foreach o
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
使用 databricks 列出 Azure Blob 中的所有文件

我正在使用 pyspark python 脚本来列出 Azure blob 存储中的所有文件包括子目录我在 scala 中找到了一个用于此目的的脚本需要帮助将此脚本转换为 pyspark https learn microsoft c
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

我通过 pycharm 和 pyspark shell 分别运行 Spark 我已经堆积了这个错误 java lang OutOfMemoryError Java heap space at org apache spark api pyt
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
如何使用 PySpark 有效地将这么多 csv 文件（大约 130,000 个）合并到一个大型数据集中？

我之前发布了这个问题并得到了一些使用 PySpark 的建议如何有效地将这一大数据集合并到一个大数据框中 https stackoverflow com questions 60259271 how can i merge this la
从数据块中的数组列获取数据，无需交叉连接

假设我有一张桌子 id array col 101 system x value 1 system y value 2 system z value 3 其中 array col 基本上包含一个结构数组 0 系统 x 值 1 1 系统 y
如何找到特定 Spark 配置属性的值？

如何在我的 Spark 代码中找到 Spark 配置的值例如我想找到spark sql shuffle partitions的值并在我的代码中引用它以下代码将返回所有值 spark sparkContext getConf getAl
如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

这可能是一个愚蠢的问题源于我的无知我已经在 PySpark 上工作了几个星期并没有太多的编程经验我的理解是在 Spark 中 RDD 数据帧和数据集都是不可变的我再次理解这意味着您无法更改数据如果是这样为什么我们能够使用编
SQL 类似于 PySpark 数据帧的 NOT IN 子句

例如在 SQL 中我们可以这样做select from table where col1 not in A B 我想知道是否有一个与此等效的 PySpark 我能够找到isin类似于 SQL 的函数IN条款但没有任何内容NOT IN

随机推荐

如何增加 HTML 表格中列的宽度？

如何增加 HTML 表格中列的宽度下面是我的代码我正在努力获得第二个 td 每行中的标签进行扩展以便输入文本框之间有更多空间第一个 td 标签以及 cookie 的名称及其价格第 3 td 标签有任何想法吗 table bor
如何在 ViewModel 中使用数组？

我的代码现在看起来像这样每条消息有两行代码该代码可以工作但如果我有 30 条消息每条消息都可以为其赋值那么我将需要 60 行代码来声明所有内容 string msg1 string msg2 public string Msg1
printf 是否有通用转换说明符？

我想打印变量值而不指定其类型在c中我可以做 int main int argc char argv int i 1 float f 0 1 char s s printf i n i printf f n f printf s s re
获取子类别 magento

尝试获取处于活动状态的特定类别的子项请帮忙我做起来有困难我目前可以展示所有内容但不能具体展示将不胜感激任何帮助 category Mage getModel catalog category gt load 2 category
如何在 IIS Express 中启用外部请求？

如何在 IIS Express 中启用远程请求斯科特格思里 Scott Guthrie 写道这是可能的但他没有说怎么做 IIS 团队网站上有一篇博客文章正在解释如何在 IIS Express 上启用远程连接以下是该帖子的相关部分总结
更快地替换所有 dom 元素中的文本的方法？

我正在尝试替换标签之间的所有文本我想知道最快的方法一个例子是尝试用任意字符串 helloWorld 替换所有文本这样 div div RandomText1 div RandomText2 div div div 就变成这样了 div
Tab 键上的 NSTableView 和 NSOutlineView 编辑

我的应用程序有一个NSOutlineView and an NSTableView 而且我两者都遇到同样的问题选择任一行后按 Tab 键会将第一列置于编辑模式而不是使下一个键查看第一响应者要进入下一个关键视图您需要按 Tab 键浏
存储数千个中型文档的最高效的面向文档的数据库引擎是什么？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案 MongoDB 还是 Redis 我听说我应该在 MongoDB 中保持较小的集合以实现更好的索引以及适合 RAM 的索引并且我听说 Redi
Python正则表达式“对象没有属性”

我一直在整理我们需要用新内容更新的页面列表我们正在切换媒体格式在此过程中我正在对正确包含新内容的页面进行编目这是我正在做的事情的总体思路遍历文件结构并获取文件列表对于读取到缓冲区的每个文件并使用正则表达式搜索来匹配特定标签如
我的 Docker 容器应用程序可以访问主机的麦克风和扬声器吗？（Mac、Windows、Linux）

我正在构建一个无头软件电话应用程序我知道我可以使用给定的工具构建 wss 或 Web 服务器但是我的 Web 应用程序需要使用主机的扬声器和麦克风执行一些 pjsip 和其他编解码器操作这些设备是否在 mac windows linu
Rails 3.1 应用程序未定义 JST

大多数关于 asset pipeline 和 javascript 模板的 Rails 3 1 教程让我相信 asset pipeline 将拾取任何 jst 文件并将它们放入 js 文件可用的 JST 变量中但是当我尝试加载 jst
如何将 sqlite3 模块导入 Python 2.4？

sqlite3 模块包含在 Python 2 5 版本中然而我坚持使用 2 4 版本我上传了 sqlite3 模块文件并将目录添加到 sys path 但是当我尝试导入它时出现以下错误 Traceback most recent c
可以在注册时指定多个 Autofac 生命周期范围吗？

我将 Autofac IoC 容器与 MVC4 附加组件一起使用该附加组件提供 InstancePerHttpRequest 生命周期范围然而在我的项目中我有 web web api 和后台工作线程在下面的示例中我假设 Inst
如何使用 codeigniter 获得 zend studio 自动完成功能

我正在寻找一种好方法来获得在 Zend Studio for Eclipse 中工作的 codeigniter 中的库的自动完成和单击参考无论叫什么例如如果我这样做 this gt load gt library dx auth th
Java中的多级映射[重复]

这个问题在这里已经有答案了 Java 中将值 o 保留在如下树结构中的最佳方法是什么 obj1 obj2 obj3 obj4 obj5 obj6 obj7
C/cmake - 当 TARGET_LINK_LIBRARIES 中指定库时，如何向（未使用的）库添加链接器标志？

在我的项目的根目录中我有一个子目录my lib另一个用于my app 图书馆my lib定义填充链接器定义的节的表这些表不直接由my app 所以这个库没有链接为了强制链接 my lib 我添加了标志 whole archive 如下
当点击editText时显示android键盘

如何在 android 中显示和隐藏键盘例如当我单击 editText 键盘时应显示键盘当我单击 edittext 外部时键盘应隐藏去尝试一下 InputMethodManager imm InputMethodManager
使用 pdf 包在 PDF 文档中创建动态表格行

背景我的 Flutter 应用程序使用pdf pdf dart包以创建 PDF 文档该文档显示 Firestore 数据库集合中的信息 PDF 文档包含一个表格我想以动态和编程方式在表中为 Firestore 集合中的每条记录创建一行
如何在没有 ObjectId 的情况下将 Mongodb 与 Spring Data 一起使用

我有一个现有的 mongo 数据库其中 ids id 保留为纯字符串这是 Mongo DB 中的示例数据 id 528bb0e2e4b0442f1479f1b4 schoolId URDLKYLFJXLWJGR1937783167422
如何获取 pyspark 中 groupBy 之后每个计数的总数百分比？

给定以下数据框 import findspark findspark init from pyspark sql import SparkSession spark SparkSession builder master local app

如何获取 pyspark 中 groupBy 之后每个计数的总数百分比？

如何获取 pyspark 中 groupBy 之后每个计数的总数百分比？ 的相关文章

随机推荐

热门标签

如何获取 pyspark 中 groupBy 之后每个计数的总数百分比？的相关文章