选择 PySpark 中每行最大值的列名

2024-03-10

我有一个像这样的数据框，仅显示两列，但是原始数据框中有很多列

data = [(("ID1", 3, 5)), (("ID2", 4, 12)), (("ID3", 8, 3))]
df = spark.createDataFrame(data, ["ID", "colA", "colB"])
df.show()

+---+----+----+
| ID|colA|colB|
+---+----+----+
|ID1|   3|   5|
|ID2|   4|  12|
|ID3|   8|   3|
+---+----+----+

我想提取每行具有最大值的列的名称。因此预期的输出是这样的

+---+----+----+-------+
| ID|colA|colB|Max_col|
+---+----+----+-------+
|ID1|   3|   5|   colB|
|ID2|   4|  12|   colB|
|ID3|   8|   3|   colA|
+---+----+----+-------+

如果出现平局，其中 colA 和 colB 具有相同的值，请选择第一列。

我怎样才能在 pyspark 中实现这一目标

您可以使用UDF在每一行上进行逐行计算和使用struct将多列传递给 udf。希望这可以帮助。

from pyspark.sql import functions as F
from pyspark.sql.types import IntegerType
from operator import itemgetter

data = [(("ID1", 3, 5,78)), (("ID2", 4, 12,45)), (("ID3", 70, 3,67))]
df = spark.createDataFrame(data, ["ID", "colA", "colB","colC"])
df.show()

+---+----+----+----+
| ID|colA|colB|colC|
+---+----+----+----+
|ID1|   3|   5|  78|
|ID2|   4|  12|  45|
|ID3|  70|   3|  70|
+---+----+----+----+
cols = df.columns

# to get max of values in a row
maxcol = F.udf(lambda row: max(row), IntegerType())
maxDF = df.withColumn("maxval", maxcol(F.struct([df[x] for x in df.columns[1:]])))
maxDF.show()

+---+----+----+----+-------+
|ID |colA|colB|colC|Max_col|
+---+----+----+----+-------+
|ID1|3   |5   |78  |78     |
|ID2|4   |12  |45  |45     |
|ID3|70  |3   |67  |70     |
+---+----+----+----+-------+

# to get max of value & corresponding column name

schema=StructType([StructField('maxval',IntegerType()),StructField('maxval_colname',StringType())])

maxcol = F.udf(lambda row: max(row,key=itemgetter(0)), schema)
maxDF = df.withColumn('maxfield', maxcol(F.struct([F.struct(df[x],F.lit(x)) for x in df.columns[1:]]))).\
select(df.columns+['maxfield.maxval','maxfield.maxval_colname'])

+---+----+----+----+------+--------------+
| ID|colA|colB|colC|maxval|maxval_colname|
+---+----+----+----+------+--------------+
|ID1| 3  | 5  | 78 | 78   | colC         |
|ID2| 4  | 12 | 45 | 45   | colC         |
|ID3| 70 | 3  | 67 | 68   | colA         |
+---+----+----+----+------+--------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

选择 PySpark 中每行最大值的列名的相关文章

如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
Pyspark dataframe：如何按组应用 scipy.optimize 函数

我有一段运行良好的代码但使用 pandas 数据帧 groupby 处理但是由于文件很大 gt 7000 万组我需要转换代码以使用 PYSPARK 数据框架这是使用 pandas dataframe 和小示例数据的原始代码 imp
Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
无法启动 Spark-Shell

我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label

随机推荐

Safari 中的页面转换效果？

如何为网页添加像Safari中IE一样的页面切换效果你可以看看这个例子 http sachiniscool blogspot com 2006 01 implementing page transitions in html http s
帮我评估一下这个选角

我在 PowerVR 网格绘图代码中找到了这个但我真的不知道如何阅读它 unsigned short 0 3 mesh sBoneBatches pnBatchOffset batchNum 这里发生了什么这是对 void 的引用强制
Rails 3 简单形式错误：无法解析 YAML

我的new html erb h1 New konkurrancer h1 我在视图中收到此错误 http localhost 3000 admin konkurrancers new Psych SyntaxError in Admin
为什么我升级版本 django-mptt 后出现数据库迁移错误？

我的 Django 应用程序有一个requirements txt 文件如图所示here https gist github com saqib zmi b0168e18ee4a0a7ee2f6 我用它在虚拟环境中安装模块一切正常但是
通过 Java 启动 VLC 播放器

我想通过 Java 程序启动我的 VLC 播放器有人可以帮助我吗提前致谢使用 VLCJ 这是新链接 http caprica github io vlcj
jQuery AJAX 调用获取 Web api 数据返回语法错误

我正在尝试获取这个json questions tagged json来自此 url 的对象 https test3 diavgeia gov gr luminapi opendata dictionaries KANONISTIKI PR
使用 PHP 最简单的双向加密

在常见 PHP 安装中进行双向加密的最简单方法是什么我需要能够使用字符串密钥加密数据并使用相同的密钥在另一端解密安全性并不像代码的可移植性那么重要因此我希望能够使事情尽可能简单目前我正在使用 RC4 实现但如果我能找到本机支持
通过工作流基础4.0中的代码注册自定义跟踪参与者

我在尝试在工作流基础 4 0 中附加自定义跟踪参与者时遇到问题我有一个继承自 TrackingParticipant 的类但除了通过大量混乱的 app config 条目如下面的 SDK 示例在 system servicemode
Mnesia 返回 {aborted, no_transaction}

我有一个名为 Mnesia 的表person 使用以下记录定义 record person id firstname lastname phone 该表包含以下值 12 alen dumas 97888888 13 franco mocci
是否可以在没有 LINQ 的情况下使用实体框架？

是否可以在没有 LINQ 实体的 linq 的情况下使用实体框架目前尚不清楚分别使用 Linq to Entities 和 EF 的含义这是一个单独的库实体框架 dll 如果你想在普通 SQL 上编写查询你可以使用SQL查询 http
将渲染的 pdf 文件保存到模型字段 Django

我现在正在尝试将使用 HTML 呈现的 pdf 文件保存到模型字段它会抛出此错误强制转换为 Unicode 需要字符串或缓冲区已找到实例这是代码 def save to pdf template src context dict p
Bash：在许多文件上并行化 md5sum 校验和

假设我有一个 64 核服务器我需要计算md5sum中所有文件的 mnt data 并将结果存储在文本文件中 find mnt data type f exec md5sum gt md5 txt 上述命令的问题是在任何给定时间只有一个进
AWS Application Load Balancer 是否始终终止 HTTPS 连接（或者是否可配置）？

我们使用应用程序负载均衡器后面有一个 nginx 服务器我们的客户要求我们实施mTLS https en wikipedia org wiki Mutual authentication但我认为如果 ALB终止 TLS 连接 https
具有正确 x 轴格式的分钟刻度数据图？

我想以分钟为单位绘制刻度数据我的数据框如下所示 gt head df No Date Time Close Volume Weekday 1 3361 03 12 2012 08 00 00 000 7 435 27000000 Mont
如何控制下拉选择菜单的位置？

我有一个下拉选择菜单我想知道是否有办法控制选项展开的方式默认值似乎是任意一种取决于列表中有多少项我想防止下拉选项显示在其他表单字段上方当您从列表中选择国家地区时菜单会向下展开我想要的位置但是当您从州地区字段中选择
使用 Google 自定义搜索 API 搜索多种文件类型

我需要获取特定文件类型的 Google 搜索结果例如在浏览器中我会直接谷歌搜索超级循环文件类型 pdf 它将列出 Hyperloop 的 PDF 文件为此我的 Google 自定义搜索请求 URI 将是但是目前我想获取文件类
C、运行时测试 PATH 中是否存在可执行文件

我目前正在用 C 语言编写一个应用程序目标是 BSD 和 Linux 系统希望能够普遍移植该程序具有运行时依赖项在本例中为 mplayer 就目前情况而言我正在使用execlp 启动 mplayer 我正在检查 execlp 调用
在 JavaScript 中获取平台特定的换行符？

几年前我为我的一个 Firefox 插件编写了以下函数它可以帮助我获取特定于平台的换行符 GetNewLine function var platform navigator platform toLowerCase if platfo
x86 汇编中断服务程序可以调用另一个中断吗？

我可以在独立 x686 环境中从中断服务程序中调用中断吗那么可以执行以下操作 isr pusha call doSomething int 21h popa iret 如果可能的话那么这些嵌套中断是否有任何重大的塌陷虽然处理器对嵌套中
选择 PySpark 中每行最大值的列名

我有一个像这样的数据框仅显示两列但是原始数据框中有很多列 data ID1 3 5 ID2 4 12 ID3 8 3 df spark createDataFrame data ID colA colB df show ID colA

选择 PySpark 中每行最大值的列名

选择 PySpark 中每行最大值的列名 的相关文章

随机推荐

热门标签

选择 PySpark 中每行最大值的列名的相关文章