如何在 PySpark 数据框中创建动态组？

2024-04-27

虽然问题是基于连续行的两个或多个列的值创建多个组，但我只是通过这种方式简化问题。假设有这样的 pyspark 数据框

>>> df=sqlContext.createDataFrame([
... Row(SN=1,age=45, gender='M', name='Bob'),
... Row(SN=2,age=28, gender='M', name='Albert'),
... Row(SN=3,age=33, gender='F', name='Laura'),
... Row(SN=4,age=43, gender='F', name='Gloria'),
... Row(SN=5,age=18, gender='T', name='Simone'),
... Row(SN=6,age=45, gender='M', name='Alax'),
... Row(SN=7,age=28, gender='M', name='Robert')])
>>> df.show()

+---+---+------+------+
| SN|age|gender|  name|
+---+---+------+------+
|  1| 45|     M|   Bob|
|  2| 28|     M|Albert|
|  3| 33|     F| Laura|
|  4| 43|     F|Gloria|
|  5| 18|     T|Simone|
|  6| 45|     M|  Alax|
|  7| 28|     M|Robert|
+---+---+------+------+

现在我想添加“部分”列，如果连续行中的性别值匹配，并且下一行部分值中的性别更改增加，则该列将具有相同的值。所以准确地说，我想要这样的输出

+---+---+------+------+-------+
| SN|age|gender|  name|section|
+---+---+------+------+-------+
|  1| 45|     M|   Bob|      1|
|  2| 28|     M|Albert|      1|
|  3| 33|     F| Laura|      2|
|  4| 43|     F|Gloria|      2|
|  5| 18|     T|Simone|      3|
|  6| 45|     M|  Alax|      4|
|  7| 28|     M|Robert|      4|
+---+---+------+------+-------+

不清楚您是在寻找 Python 还是 Scala 解决方案，但它们非常相似 - 所以这里有一个 Scala 解决方案，使用窗口函数:

import spark.implicits._
import functions._

// we'll use this window to attach the "previous" gender to each record
val globalWindow = Window.orderBy("SN")

// we'll use this window to compute "cumulative sum" of 
// an indicator column that would be 1 only if gender changed
val upToThisRowWindow = globalWindow.rowsBetween(Long.MinValue, 0)

val result = df
  .withColumn("prevGender", lag("gender", 1) over globalWindow) // add previous record's gender
  .withColumn("shouldIncrease", when($"prevGender" =!= $"gender", 1) otherwise 0) // translate to 1 or 0
  .withColumn("section", (sum("shouldIncrease") over upToThisRowWindow) + lit(1)) // cumulative sum
  .drop("prevGender", "shouldIncrease") // drop helper columns

result.show()
// +---+---+------+------+-------+
// | SN|age|gender|  name|section|
// +---+---+------+------+-------+
// |  1| 45|     M|   Bob|      1|
// |  2| 28|     M|Albert|      1|
// |  3| 33|     F| Laura|      2|
// |  4| 43|     F|Gloria|      2|
// |  5| 18|     T|Simone|      3|
// |  6| 45|     M|  Alax|      4|
// |  7| 28|     M|Robert|      4|
// +---+---+------+------+-------+

以下是等效的pyspark code

from pyspark.sql import Window as W
import sys
globalWindow = W.orderBy("SN")
upToThisRowWindow = globalWindow.rowsBetween(-sys.maxsize-1, 0)
from pyspark.sql import functions as F
df.withColumn("section", F.sum(F.when(F.lag("gender", 1).over(globalWindow) != df.gender, 1).otherwise(0)).over(upToThisRowWindow)+1).show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

groupby

PySpark

apachesparksql

RDD

如何在 PySpark 数据框中创建动态组？的相关文章

JVM 是否会内联对象的实例变量和方法？

假设我有一个非常紧密的内部循环每次迭代都会访问和改变一个簿记对象该对象存储有关算法的一些简单数据并具有用于操作它的简单逻辑簿记对象是私有的和最终的并且它的所有方法都是私有的最终的和 inline 下面是一个示例 Scala 语法
将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
Scala：如何将“MatchesRegex”细化与包含反引号的正则表达式（细化库）一起使用？

The refined https github com fthomas refined库允许定义与给定匹配的细化regex 如图所示Readme import eu timepit refined import eu timepit re
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
MySQL GROUP 通过还是使用 PHP？

我有一个看起来很简单的问题但我只是想问你如何解决它在 MySQL 表中有以下结构 provider artist a 1 a 2 a 3 b 4 现在需要在 HTML 中回显一个列表例如 provider a 1 2 3 provid
scala 使用 GMPUtil 处理 pidigits

Rex Kerr 发布了有关在 scala 中使用 GMP 的信息特别是运行 pidigits 程序 libjpargmp so 使用 GmpUtil c 生成我的问题是在哪里可以找到 GMPUtil c 我的谷歌搜索没有发现任何东西
idea sbt java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

我是spark的初学者我使用 linux idea sbt 构建了一个环境当我尝试快速启动Spark时我遇到了问题 Exception in thread main java lang NoClassDefFoundError org
Scala 中两个地图的交集和合并/连接

假设我有两张类似这样的地图 val m1 Map 1 gt One 2 gt Two 3 gt Three val m2 Map 2 gt 2 0 3 gt 3 0 4 gt 4 0 我想根据键获取交集并返回一个表示合并值的元组结果看起来
PySpark 用数组替换 Null

通过 ID 连接后我的数据框如下所示 ID Features Vector 1 50 Array 1 1 2 3 2 50 Null 我最终得到向量列中某些 ID 的空值我想用 300 维的零数组替换这些 Null 值与非空向量条
Scala 和 Spark：Windows 上的 Dataframe.write._

有人设法使用 Spark 写入文件尤其是 CSV 吗数据框 http spark apache org docs latest api scala index html org apache spark sql Dataset在 Win
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
对于值类型，asInstanceOf[X] 和 toX 之间有什么区别吗？

我使用 IntelliJ 将 Java 代码转换为 Scala 代码的功能通常效果很好看来 IntelliJ 用调用替换了所有强制转换asInstanceOf 是否有任何有效的用法asInstanceOf Int asInstanceO
在 Pandas 中按索引分组

如何使用 groupby by 索引 1 2 3 它们的顺序相同并获得属于每个索引范围的列分数的总和基本上我有这个 index score 1 2 2 2 3 2 1 3 2 3 3 3 我想要的是 index score sum 1
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
使用 slick 3.0.0-RC1 无法在 TableQuery 上找到方法结果

我正在尝试 Slick3 0 0 RC1我遇到了一个奇怪的问题这是我的代码 import slick driver SQLiteDriver api import scala concurrent ExecutionContext Imp
如何询问 Scala 类型参数的所有实例化是否存在证据？

给定皮亚诺数的以下类型级加法函数 sealed trait Nat class O extends Nat class S N lt Nat extends Nat type plus a lt Nat b lt Nat a match c
Scala 2.10，它对 JSON 库和案例类验证/创建的影响

显然在 Scala 2 10 中我们得到了改进的反射这将如何影响 lift json jerkson sjson 和朋友此外我们能否期望在不久的将来 Scala 中会出现内置的 JSON 语言功能如 Groovy 的出色 GSON
通过“SELECT”命令选择每组的前两条记录的最佳方法是什么？

例如我有下表 id group data 1 1 aaa 2 1 aaa 3 2 aaa 4 2 aaa 5 2 aaa 6 3 aaa 7 3 aaa 8 3 aaa 通过 SELECT 命令选择每组的前两条记录的最佳方法是什么如果没有

随机推荐

初学者寻找漂亮且有指导性的 Python 代码 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案作为一个没有编程经验的初学者我正在努力寻找漂亮的 Python 代码来学习和使用请通过指向网站书
如何在应用程序启动时预加载 XAML？

我有相当大的用户控件它没有显示在主屏幕上但用户几乎总是在以后使用它第一次加载需要一些时间解析 BAML 等然后其他实例的构建速度相当快问题是如何使其在启动屏幕期间在应用程序启动时预加载我的想法是在启动时构建 usused 实例
求矩阵任意子矩阵中的最大元素

我给出一个矩阵N x M 对于长度的子矩阵X从位置开始 a b 我必须找到子矩阵中存在的最大元素我的方法按照问题说的做简单2个循环 for i in range a a x for j in range b b x max max m
React-Navigation：从操作文件导航

我是 RN 和 JS 的新手我想在登录操作完成后进行导航但无法使其工作我正在使用 firebase 这是来自我的操作文件它抛出一个 firebase 错误 export const LOGIN USER SUCCESS login
无法使用 Mockito 模拟 MongoTemplateexecuteQuery

我正在寻找模拟 MongoTemplate 以便可以实际调用我的服务中的executeQuery 函数这就是我的服务代码块的样子 this mongoTemplate executeQuery query collectionName n
使用 glmnet 的多项式岭回归给出的结果概率高于 1，而对于不同的目标类别为负，知道为什么吗？

这是我的代码 library glmnet ridge fit lt cv glmnet data matrix df final f1 colnames df final f1 actual df final f1 actual fami
TYPO3 9.5 URL 路由与 URL 段不起作用

我对 Typo3 不太有经验所以我希望我的问题问题是一个非常简单的问题我在 Ubuntu 上使用 Typo3 9 5 0 LTS instanz 以及 Apache 和 MySQL 问题是 URLS 路由 https typo3 or
依靠 IEnumerable

我正在使用 Rob Conery 的 Massive ORM 有没有一种优雅的方法来对返回的记录集进行计数 dynamic viewModelExpando result ViewData Model var queryFromMassiv
如何确保ES3程序能够在ES5引擎中运行？

因此 ECMAScript 5 引入了与 ECMAScript 3 的一些不兼容性 Example Many https developer mozilla org en JavaScript Strict mode articles ht
如何检测谷歌地图折线叠加层上的点击事件？

在我看来我应该能够执行以下操作来检测谷歌地图上的一行上的点击事件 var line new GPolyline map addOverlay line GEvent addListener line click function latl
字符串替换不起作用[重复]

这个问题在这里已经有答案了 public static string ChangeUriToHttps HttpRequest request string uri request Url AbsoluteUri if IsRequestS
如何在 Rails 3.2.8 中使用 Jquery？

我读过的所有教程都告诉我使用 public javascripts 文件夹但rails 3 2 8中没有这个文件夹我的 jquery 代码应该放在哪里 Rails 3 2 8 中不包含 Jquery 吗默认的 Rails 应用程序 g
如何使用具有长联系人列表的 Apple 联系人框架更快地获取 iOS 联系人？

我在用联系方式获取我的 iOS 设备中的电话簿联系人当我的手机中有少量联系人例如 50 个时可以轻松获取联系人但是当我有很多联系人比如 500 700 时它会挂起等待很长时间才能将这些联系人从 iOS 电话簿获取到我的应用
elf .rel.text 部分中 R_386_32/R_386_PC32 的含义

为了理解重定位的概念我编写了一个简单的 chk c 程序如下所示 1 include
如何避免在选择文件后删除值？

我正在开发一个网络上传器但是我发现了一些东西我不知道这是否是一个问题这是我发现的当我选择文件时
在将页面发送到客户端之前修改该页面的 HTML

我需要在将 ASP NET 发送到客户端之前捕获它的 HTML 以便对其进行最后一刻的字符串操作然后将修改后的版本发送到客户端 e g 页面已加载每个控件都已正确呈现页面的完整 html 已准备好传输回客户端在 ASP NET 中有
在 NTVDM 下运行的 16 位应用程序

我正在执行一些旧的 16 位应用程序我们的内部人员不应再使用这些应用程序它们是 1985 年的 DOS 应用程序因此捕获它们很容易捕获在 NTVDM exe 下启动的任何进程现在的问题是找出哪个程序 NTVDM 实际上在幕后运行
如何作为 API 向 Django 检索/提供 CSRF 令牌

我正在开发一个使用 Django REST Framework 作为后端的项目假设在api somecompany com但有一个 React js 前端位于www somecompany com 不由发出 AJAX 请求的 Djang
按“计数（列不为空）”排序

我正在寻找一种方法通过值不为空的列的计数来对 MySQL 结果进行排序所以 id 1 1 0 1 1 4 id 0 1 1 1 0 3 id 0 0 0 1 1 2 id 1 0 0 0 0 1 在上面的例子中我忽略了 ID 列但实
如何在 PySpark 数据框中创建动态组？

虽然问题是基于连续行的两个或多个列的值创建多个组但我只是通过这种方式简化问题假设有这样的 pyspark 数据框 gt gt gt df sqlContext createDataFrame Row SN 1 age 45 gender

如何在 PySpark 数据框中创建动态组？

如何在 PySpark 数据框中创建动态组？ 的相关文章

随机推荐

热门标签

如何在 PySpark 数据框中创建动态组？的相关文章