计算 pyspark 数据帧的百分比

2024-01-02

我有一个来自泰坦尼克号数据的 pyspark 数据框，我已将其副本粘贴在下面。如何添加包含每个存储桶百分比的列？

谢谢您的帮助！

首先是一个包含输入数据的文字 DataFrame：

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local").appName("test").getOrCreate()
df = spark.createDataFrame([
    (1,'female',233),
    (None,'female',314),
    (0,'female',81),
    (1, None, 342), 
    (1, 'male', 109),
    (None, None, 891),
    (0, None, 549),
    (None, 'male', 577),
    (0, None, 468)
    ], 
    ['survived', 'sex', 'count'])

然后，我们使用窗口函数计算包含完整行集的分区上的计数总和（本质上是总计数）：

import pyspark.sql.functions as f
from pyspark.sql.window import Window
df = df.withColumn('percent', f.col('count')/f.sum('count').over(Window.partitionBy()))
df.orderBy('percent', ascending=False).show()

+--------+------+-----+--------------------+
|survived|   sex|count|             percent|
+--------+------+-----+--------------------+
|    null|  null|  891|                0.25|
|    null|  male|  577| 0.16189674523007858|
|       0|  null|  549| 0.15404040404040403|
|       0|  null|  468| 0.13131313131313133|
|       1|  null|  342| 0.09595959595959595|
|    null|female|  314| 0.08810325476992144|
|       1|female|  233|  0.0653759820426487|
|       1|  male|  109| 0.03058361391694725|
|       0|female|   81|0.022727272727272728|
+--------+------+-----+--------------------+

如果我们把上面的步骤一分为二就更容易看出窗口函数sum只是添加相同的total价值每行

df = df\
  .withColumn('total', f.sum('count').over(Window.partitionBy()))\
  .withColumn('percent', f.col('count')/f.col('total'))
df.show()

+--------+------+-----+--------------------+-----+
|survived|   sex|count|             percent|total|
+--------+------+-----+--------------------+-----+
|       1|female|  233|  0.0653759820426487| 3564|
|    null|female|  314| 0.08810325476992144| 3564|
|       0|female|   81|0.022727272727272728| 3564|
|       1|  null|  342| 0.09595959595959595| 3564|
|       1|  male|  109| 0.03058361391694725| 3564|
|    null|  null|  891|                0.25| 3564|
|       0|  null|  549| 0.15404040404040403| 3564|
|    null|  male|  577| 0.16189674523007858| 3564|
|       0|  null|  468| 0.13131313131313133| 3564|
+--------+------+-----+--------------------+-----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

计算 pyspark 数据帧的百分比的相关文章

在 pyspark 中包装 java 函数

我正在尝试创建一个用户定义的聚合函数我可以从 python 调用它我试图遵循答案this https stackoverflow com questions 33233737 spark how to map python with s
如何从 Spark 数据框中删除重复项，同时保留最新数据？

我正在使用 Spark 从 Amazon S3 加载 json 文件我想根据保留最新数据帧的两列删除重复项我有时间戳列最好的方法是什么请注意重复项可能分布在多个分区中我可以在不打乱的情况下删除保留最后一条记录的重复项吗我正在处
如何找到两个数据帧之间的精确和非精确匹配？

我有两个数据框 df1 id amount fee 1 10 00 5 0 2 20 0 3 0 3 90 130 0 4 120 0 35 0 df2 exId exAmount exFee 1 10 00 5 0 2 20 0 3 0
将spark.local.dir设置为不同的驱动器

我正在尝试在 Windows 10 上设置独立 Spark 我想设置spark local dir to D spark tmp tmp 目前它似乎正在使用C Users
具有定期更新的静态数据集的结构化流

将流媒体与静态数据集合并是结构化流媒体的一个重要功能但在每个批次中数据集都会从数据源刷新由于这些源并不总是那么动态因此在指定的时间段或批次数内缓存静态数据集会提高性能在指定的时间段批次数之后将从源重新加载数据集否则从缓存
在“GROUP BY”子句中重用选择表达式的结果？

在 MySQL 中我可以有这样的查询 select cast from unixtime t time Y m d H 00 as datetime as timeHour from some table t group by timeH
我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中
Pyspark UDF AttributeError：“NoneType”对象没有属性“_jvm”

我有一个 udf 函数 staticmethod F udf array
Spark - 构建时出现 scala 初始化错误

我正在尝试在我的 scala 应用程序中使用 Spark 这是我正在使用的 Spark 依赖项
Spark对RDD进行重复数据删除以获得更大的RDD

我有一个从磁盘加载的数据框 df sqlContext read json Users spark stats test json 它包含 500k 行我的脚本在这个大小上运行良好但我想在 5M 行上测试它有没有办法将 df 复制 9
如何调试 Spark 工作线程上的映射函数中的错误？

我是 Spark 新手正在努力寻找自己的方法我有一个 Spark 应用程序它在dataset 此地图功能可能会因主要与数据相关的原因而失败我怎样才能获得一些关于问题所在的有意义的信息我不知道从哪里开始非常感谢如果您想编写单元测
最大模式长度 fpgrowth apache Spark

我正在尝试使用 Spark Scala 运行关联规则我首先创建一个 FPGrowth 树并将其传递给关联规则方法但是我希望添加最大模式长度参数以限制我想要在左侧和右侧的项目数量我只想要项目之间的一对一关联 val model ne
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
指定 Parquet 属性 pyspark

如何在 PySpark 中指定 Parquet 块大小和页面大小我到处搜索但找不到任何有关函数调用或导入库的文档根据火花用户档案 https mail archives apache org mod mbox spark user 2
Apache Spark 从 S3 读取异常：内容长度分隔消息正文过早结束（预期：2,250,236；收到：16,360）

我想从 S3 资源创建 Apache Spark DataFrame 我在 AWS 和 IBM S3 Clout 对象存储上尝试过都失败了 org apache spark util TaskCompletionListenerExcep
根据条件组合 Spark 数据帧列中的多行

我正在尝试根据条件组合 Spark 数据框中的多行这是我的数据框 df username qid row no text a 1 1 this a 1 2 is d 2 1 the a 1 3 text d 2 2 ball 我希望它看起
Spark 上的 Kubernetes 驱动程序 pod 清理

我在 kubernetes 1 19 上运行 Spark 3 1 1 作业完成后执行程序 Pod 就会被清理但驱动程序 Pod 仍处于完成状态驱动程序完成后如何清理要设置任何配置选项吗 NAME READY STATUS RESTA
使用 Spark SQL 从 ISO 8601 解析日期时间

想做this https stackoverflow com questions 9321809 format date in mysql select as iso 8601但反之亦然 My dates 采用这种格式YYYY MM DDT
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

我通过 pycharm 和 pyspark shell 分别运行 Spark 我已经堆积了这个错误 java lang OutOfMemoryError Java heap space at org apache spark api pyt

随机推荐

在 WebView 源代码中执行 JavaScript

任何人都知道如何如果可能在 React Native 的 WebView 内部执行 JS 场景我的 WebView 中显示了这个远程登录页面网站并且该网站具有与用户活动相对应的一系列事件所有事件都会触发一个回调 WebView
将 zope DateTime 对象转换为 Python datetime 对象的最佳方法是什么？

我需要将 zope 2 DateTime 对象转换为 Python 日期时间对象最好的方法是什么谢谢埃里卡较新的 DateTime 实现 2 11 及更高版本有asdatetime返回 python datetime dateti
此错误是什么意思：“somefile.c:200: 错误：1032 字节的帧大小大于 1024 字节”？

在 make 过程中我看到如下错误 cc1 warnings being treated as errors somefile c 200 error the frame size of 1032 bytes is larger than
返回列表中最大重复项

List
Android 上的 Youtube 播放/暂停动画矢量 Drawable

我正在尝试使用 svgs 路径和动画矢量制作像 youtube 播放暂停这样的动画 Strings xml
pytorch conv2d值无法转换为uint8_t类型而不溢出

我正在传递一个torch Tensor with a dtype of torch uint8 to an nn Conv2d模块它给出了错误运行时错误值无法转换为 uint8 t 类型无需溢出 0 0344873 我的 conv
javascript 通过使用正则表达式匹配键从 JSON 对象检索值

我有以下 javascript 对象文字摘录 var foo hello 35 100 goodbye 45 42 我有以下查询 var query hello 我想调用 foo query 来获取值 100 但是有一个 35 我不一定知
更改数据框的列名称

我有一个名为 newprice 的数据框见下文我想更改 R 程序中的列名称 gt newprice Chang Chang Chang 1 100 36 136 2 120 33 87 3 150 14 164 事实上这就是我正在做的事
谷歌地图中路线的中点

我想知道是否有人知道如何使用谷歌地图 API 来找到两个地方之间路线的中点我不需要地理中心而是行驶距离的中点我对 Javascript 和谷歌地图 api 都很陌生所以如果你能在你的答案中包含一个演示或一些代码那将会非常有帮助最
使用 Apache Beam io.jdbc.ReadFromJdbc 时出现错误 BEAM：逻辑类型：javasdk：v1

我正在尝试使用 Apache Beam 的 python SDK 读取 postgres 表我已经按照文档所述安装了 Java SDK 我正在使用最新版本我的代码如下 import logging import typing impor
递归方法打印 4 次

所以我正在努力学习如何通过Java利用递归我编写了一个简单的程序将 1 和 n 之间的所有数字相加它看起来可以完成它的工作我感到困惑的是 print 语句它打印了 4 次对于解决方案的每个较小部分的每个结果并且我很困惑如果再次
如何在 Django 1.3 中使用基于类的视图重定向条件？

我正在使用根据标签列出视频的 ListView 过滤发生在 get queryset 中如果标签不包含任何视频我想将用户重定向到另一个页面有了函数就很容易了查询检查查询集重定向在课堂上我失败了 class VideosVi
如何使用逗号分隔的值列创建虚拟变量？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我正在研究机器学习的数据预处理并遇到一个问题这就是我想做的表格图片表的类型是 pandas dataframe 我
肯定包含给定点列表的球体 [点具有 x、y 和 z 坐标]

我试图找到一个球体粗暴地包含给定的点列表点将具有 x y 和 z 坐标点位于 3D 中实际上我试图根据给定的点列表通过一些计算找到新的三个点例如查找 MinX MaxX MinY MaxY MinZ 和 MaxZ 并进行一些操作并
谷歌的密钥管理系统：密钥轮换后数据解密

Context 我正在遵循 GCP 的说明储存秘密 https cloud google com kms docs store secrets在存储桶中 KMS 用于文件加密 https cloud google com kms docs
使用 IQueryable、foreach 和多个Where 时的 LINQ to SQL 错误（或非常奇怪的功能）

我遇到了 LINQ to SQL 行为非常奇怪的情况我想知道我是否做错了什么但我认为这确实有可能是一个错误下面粘贴的代码不是我的真实代码这是我为这篇文章创建的简化版本使用 Northwind 数据库一点背景知识我有一个方法需要
无法将文件保存在 tmp 目录中

我有这个功能可以将图像保存在 tmp 文件夹中 private func saveImageToTempFolder image UIImage withName name String if let data UIImageJPEGRep
获取有关 Linux 中“以太网电缆已插入”事件的通知

我正在编写一个在 Linux 上运行的 Python 应用程序我希望能够注册并成为notified如果系统网络电缆已插入拔出我已经在使用了pyUdev http packages python org pyudev api index
从 npm 本地导入 ES 模块依赖项，无需捆绑/转译第一方源代码

背景我正在尝试创建一个没有建造的 https www pika dev blog pika web a future without webpack JavaScript 应用程序我不需要watch每次我保存任何源文件时都会运行任务
计算 pyspark 数据帧的百分比

我有一个来自泰坦尼克号数据的 pyspark 数据框我已将其副本粘贴在下面如何添加包含每个存储桶百分比的列谢谢您的帮助首先是一个包含输入数据的文字 DataFrame import findspark findspark init

计算 pyspark 数据帧的百分比

计算 pyspark 数据帧的百分比 的相关文章

随机推荐

热门标签

计算 pyspark 数据帧的百分比的相关文章