如何在pyspark中自动删除常量列？

2023-12-27

我在 pyspark 中有一个 Spark 数据框，我需要从数据框中删除所有常量列。由于我不知道哪些列是常量，因此我无法手动取消选择常量列，即我需要一个自动过程。我很惊讶我无法在 stackoverflow 上找到简单的解决方案。

Example:

import pandas as pd
import pyspark
from pyspark.sql.session import SparkSession
spark = SparkSession.builder.appName("test").getOrCreate()

d = {'col1': [1, 2, 3, 4, 5], 
     'col2': [1, 2, 3, 4, 5],
     'col3': [0, 0, 0, 0, 0],
     'col4': [0, 0, 0, 0, 0]}
df_panda = pd.DataFrame(data=d)
df_spark = spark.createDataFrame(df_panda)
df_spark.show()

Output:

+----+----+----+----+
|col1|col2|col3|col4|
+----+----+----+----+
|   1|   1|   0|   0|
|   2|   2|   0|   0|
|   3|   3|   0|   0|
|   4|   4|   0|   0|
|   5|   5|   0|   0|
+----+----+----+----+

期望的输出：

+----+----+
|col1|col2|
+----+----+
|   1|   1|
|   2|   2|
|   3|   3|
|   4|   4|
|   5|   5|
+----+----+

在 pyspark 中自动删除常量列的最佳方法是什么？

首先计算每列中的不同值，然后删除仅包含一个不同值的列：

import pyspark.sql.functions as f
cnt = df_spark.agg(*(f.countDistinct(c).alias(c) for c in df_spark.columns)).first()
cnt
# Row(col1=5, col2=5, col3=1, col4=1)
df_spark.drop(*[c for c in cnt.asDict() if cnt[c] == 1]).show()
+----+----+
|col1|col2|
+----+----+
|   1|   1|
|   2|   2|
|   3|   3|
|   4|   4|
|   5|   5|
+----+----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

apachesparksql

如何在pyspark中自动删除常量列？的相关文章

Spark DataFrame 删除重复项并保留第一个

问题在 pandas 中当删除重复项时您可以指定要保留哪些列 Spark Dataframes 中有等效的吗 Pandas df sort values actual datetime ascending False drop dup
Spark Mongo 连接器，MongoShardedPartitioner 不起作用

出于测试目的我配置了一个 4 节点集群每个节点都有一个 Spark Worker 和一个 MongoDB Shard 这些是详细信息四台 Debian 9 服务器名为 Visa0 Visa 1 Visa 2 Visa 4 个节点上的
如何在spark Scala中读取s3中的多个目录？

我在 s3 中有以下格式的目录
如何使用增量值向 Pyspark 中的 DataFrame 添加列？

我有一个名为 df 的 DataFrame 如下所示 Atr1 Atr2 Atr3 A A A B A A C A A 我想向其中添加一个具有增量值的新列并获取以下更新的 DataFrame Atr1 Atr2 Atr3
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
Spark：shuffle操作导致GC长时间暂停

我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json 我在洗牌期间遇到了很长的垃圾收集暂停Dataset val operations spark read json inPath as MyClass operations re
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim

随机推荐

如何使“Enter”键的行为类似于 JFrame 上的“提交”

我正在构建一个客户端服务器应用程序我想让用户在身份验证框架上变得轻松 I want to know how to make enter key submits the login and password to the Database
您需要使用不同的包名称，因为“com.example”受到限制

我已经在这里找到了很多关于这个问题的线程但没有一个对我有用我使用的是Android Studio 2 1 2 并且我仍然有com example域名在清单或任何其他文件中更改它会导致出现大量错误而我的 build gradle 仅显
SwiftUI：两指滑动（滚动）手势

我对 2 指滑动滚动手势感兴趣不是两指拖动而是两指滑动无需按下就像在 Safari 中用来向上和向下滚动一样据我所知没有一个基本手势可以用于此目的 TapGesture 不是 LongPressGesture 不 DragG
防止多次登录

我试图在我的应用程序中阻止同一用户的多次登录我的想法是在用户登录时更新安全标记并将其添加为声明然后在每个请求中将 cookie 中的标记与数据库中的标记进行比较这就是我的实现方式 public virtual async Task
滚动条没有出现？

我正在为 Tumblr 开发主题但由于某种原因滚动条没有出现这是博客的网址 http infinitethemedewitt tumblr com 主题的代码可以通过右键单击在页面源代码中找到除了 html 之外的所有代码因为它被
fopen 不显示内容

不知道为什么我的即时通讯页面出现空白 txt 中有数据 php 中没有错误这是 txt Product txt ID OID Title Description Option Price 01 01JAP Japanese Mod
CarrierWave + RMagick 方形裁剪？

我正在尝试使用 Ruby on Rails CarrierWave 和 RMagick 制作固定的方形图像裁剪我尝试过以下两种方法但没有运气 version thumb do process resize to fit gt 200 2
C# 十进制格式化查询

我正在尝试格式化小数以便它显示如下 14 5 应显示为 14 50 14 50 应显示为 14 50 14 05 应显示为 14 05 14 00 应显示为 14 是否可以使用单一字符串格式即不使用条件格式我尝试过 0 不满足第一个示
水平滚动列表

我希望将图像显示在水平列表中这就是我到目前为止所做的 var list Ext create Ext List store store itemTpl new Ext XTemplate img src icon inline true
设置解析注册的默认个人资料图片

我试图在注册时在解析中设置默认的个人资料图片该图片位于我的项目文件夹中有什么办法可以设置不上传照片吗 var user new Parse User user set username username val user set pas
在 HyperLedger Composer 查询中获取资产计数？

我想在 HyperLedger Composer 中编写一个查询返回我在超级账本中拥有的资产数量我有数千条记录我不想将它们全部获取并计算计数数据传输会很慢我希望查询返回计数不幸的是这儿没有count使用作曲家查询语言您必须创
cocos2d 计算给定起点、角度和距离的目的地点

我想快点吧 Cocos2d 和 xcode 中的 2d 问题 I have CGPoint currPoint float lineLength float angle 现在我需要找到距离 currPoint 角度为 lineLength
大量数据的数据库设计[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在开展一个项目涉及来自美味网站的大量数据可用数据为日期用户 ID 网址标签针对每个书签我将数据库规范化为 3NF 并且由于我们
是否需要“设置字符集utf8”？

我正在重写我们的数据库类基于 PDO 并陷入困境我被教导要同时使用SET NAMES utf8 and SET CHARACTER SET utf8在 PHP 和 MySQL 中使用 UTF 8 时在 PDO 中我现在想使用PDO M
PHP 日期比较

如何检查 2008 02 16 12 59 57 格式的日期是否小于 24 小时前 if strtotime 2008 02 16 12 59 57 gt time 24 60 60 LESS
如何确定 _POSIX_PATH_MAX 的系统值

谁能告诉我如何找到系统值 POSIX PATH MAX在 Linux 薄荷中我知道它在文件中可用但我不知道如何找到它的值根据 POSIX 要使用的工具被命名为getconf http pubs opengroup org onlin
React Router Lazy 组件不起作用

所以这有效 import Page from components Page render return
有选择地将 C++ 核心逻辑暴露给 QML 的最佳方法

我想设置特定 QML 组件的上下文属性而不是在根上下文中我不希望在组件外部访问该属性 C 有没有一种方法可以访问组件的上下文只允许从组件的上下文中访问命名属性而不是从全局命名空间中访问我想保持 QML 声明性而不是在 C 中创建
Seaborn 群图和点图躲避对齐

有没有办法将点图的平均值 SEM 与相应的群图对齐这是我的代码 import seaborn as sns import numpy as np import pandas as pd import matplotlib pyplot a
如何在pyspark中自动删除常量列？

我在 pyspark 中有一个 Spark 数据框我需要从数据框中删除所有常量列由于我不知道哪些列是常量因此我无法手动取消选择常量列即我需要一个自动过程我很惊讶我无法在 stackoverflow 上找到简单的解决方案 Examp

如何在pyspark中自动删除常量列？

如何在pyspark中自动删除常量列？ 的相关文章

随机推荐

热门标签

如何在pyspark中自动删除常量列？的相关文章