如何估计 Spark DataFrame 中每列的大小（以字节为单位）？

2024-03-19

我有一个非常大的 Spark DataFrame，其中有许多列，我想对是否将它们保留在我的管道中做出明智的判断，部分取决于它们有多大。我所说的“有多大”是指缓存此 DataFrame 时 RAM 中的大小（以字节为单位），我希望这是对处理此数据的计算成本的一个不错的估计。有些列是简单类型（例如双精度数、整数），但其他列是复杂类型（例如数组和可变长度的映射）。

我尝试过的一种方法是缓存没有和有问题的列的 DataFrame，检查 Spark UI 中的“存储”选项卡，并获取差异。但对于具有很多列的 DataFrame 来说，这是一个烦人且缓慢的练习。

我通常使用 PySpark，因此 PySpark 答案会更好，但 Scala 也可以。

我找到了一个基于此相关答案的解决方案：https://stackoverflow.com/a/49529028 https://stackoverflow.com/a/49529028.

假设我正在使用一个名为的数据框df and a SparkSession称为的对象spark:

import org.apache.spark.sql.{functions => F}

// force the full dataframe into memory (could specify persistence
// mechanism here to ensure that it's really being cached in RAM)
df.cache()
df.count()

// calculate size of full dataframe
val catalystPlan = df.queryExecution.logical
val dfSizeBytes = spark.sessionState.executePlan(catalystPlan).optimizedPlan.stats.sizeInBytes

for (col <- df.columns) {
    println("Working on " + col)

    // select all columns except this one:
    val subDf = df.select(df.columns.filter(_ != col).map(F.col): _*)
    
    // force subDf into RAM
    subDf.cache()
    subDf.count()

    // calculate size of subDf
    val catalystPlan = subDf.queryExecution.logical
    val subDfSizeBytes = spark.sessionState.executePlan(catalystPlan).optimizedPlan.stats.sizeInBytes

    // size of this column as a fraction of full dataframe
    val colSizeFrac = (dfSizeBytes - subDfSizeBytes).toDouble / dfSizeBytes.toDouble
    println("Column space fraction is " + colSizeFrac * 100.0 + "%")
    subDf.unpersist()
}

一些证据表明这种方法给出了合理的结果：

报告的列大小加起来为 100%。
简单类型列（例如整数或双精度数）每行占用预期 4 个字节或 8 个字节。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

如何估计 Spark DataFrame 中每列的大小（以字节为单位）？的相关文章

TaskSchedulerImpl：初始作业尚未接受任何资源；

这就是我正在尝试做的事情我创建了DataStax企业集群的两个节点在其上创建了一个java程序来获取一张表 Cassandra数据库表的计数该程序是在 eclipse 中构建的实际上是来自 windows 盒子从 Windows
如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制]

这个问题在这里已经有答案了 Florian 的示例代码 ball column keep the hall column 0 7 14 1 8 15 2 9 16 3 10 17 4 11 18
Spark数据框中过滤的多个条件

我有一个包含四个字段的数据框其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件我尝试了以下查询但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo
如何计算 pyspark dataframe 中的每日基础（时间序列）

所以我有一个数据框我想计算一些数量比如说每天假设我们有 10 列 col1 col2 col3 col4 coln 其中每列都依赖于值col1 col2 col3 col4 等等日期根据id date col1 id col2 co
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
pyspark.pandas 与 pandas 有什么区别？

开始在 Databricks 上使用 PySpark 我发现我可以导入pyspark pandas旁边pandas 有什么不同我认为这不像koalas right PySpark 是 Python 中 Apache Spark 的接口它
错误：从列表创建 Spark 数据帧时 TimestampType 无法接受对象

我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
Spark：有没有办法打印出spark-shell和spark的类路径？

我可以在 Spark shell 中成功运行 Spark 作业但是当它打包并通过 Spark submit 运行时我收到 NoSuchMethodError 这向我表明类路径存在某种不匹配有没有办法可以比较两个类路径某种日志记录语句
将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
idea sbt java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

我是spark的初学者我使用 linux idea sbt 构建了一个环境当我尝试快速启动Spark时我遇到了问题 Exception in thread main java lang NoClassDefFoundError org
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
PySpark 用数组替换 Null

通过 ID 连接后我的数据框如下所示 ID Features Vector 1 50 Array 1 1 2 3 2 50 Null 我最终得到向量列中某些 ID 的空值我想用 300 维的零数组替换这些 Null 值与非空向量条
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希

随机推荐

Django Q 查询 & 在同一字段上？

这是我的模型 class Event models Model user models ForeignKey User blank True null True db index True name models CharField max
下拉菜单中的 jvectormaps，NS_ERROR_FAILURE：

我的 jvector 地图位于下拉菜单中它在 safari opera 和 chrome 中运行良好但会损坏没有地图和错误消息 NS ERROR FAILURE 2 0 2 min js 第 700 行 return this no
LinkedList不能序列化？

这是我的课程 http pastebin com 3dc5Vb1t http pastebin com 3dc5Vb1t 当我尝试跑步时 BookStore b new BookStore b LoadFromXML Server MapP
如何替换 Tkinter 应用程序中的图标？

我在 Windows 10 上使用 Python 3 5 0 并且想要替换它要更改图标您应该使用iconbitmap or wm iconbitmap我的印象是您想要将其更改为的文件必须是 ico 文件 import tkinter a
C#：GPS跟踪系统[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 C net 中构建带有移动设备带 GPS 的 GPS 跟踪系统场景是通过支持 GPS 的手机跟踪用户服务工程师这里没
保持鼠兔 BlockingConnection 存活而不禁用心跳

我正在使用 pika 0 10 0 和 python 2 7 版本开发 RabbitMQ 消费者在我的消费者客户端中我有一个根据输入消息运行一段时间的进程时间可能从 3 到 40 分钟不等我不想禁用心跳相反我正在寻找一些回滚机制
Ruby on Rails - 简单表单自动完成关联搜索

我在基本任务管理应用程序中有一个表单允许将任务分配给用户任务属于用户我为此使用简单表格目前该关联以典型方式填充带有用户下拉列表如下所示但是随着用户数量的增长我希望将其更改为自动完成表单字段以查找用户我尝试过遵循Rail
使用原生SQL查询时如何指定数据类型？

我正在使用休眠我已经编写了本机 SQL 查询我想指定其中一列的数据类型如下所示 sqlQuery addScalar NAME STRING 我正在查询 5 列并且ID是其中的一栏但如果我使用addScalar 它不返回所有列只返
用于 BLE 的 BluezV5.42 DBUS C API？

我开发了 BLE 应用程序openwrt using BLUEZV5 30 我能够通过提取源代码来创建应用程序gatttool and hcitool 我还添加了这些工具提供的更多功能例如阅读rssi 不过我已经升级了我的bluez堆叠
JSON.net - 字段可以是 string 或 List

我有一种情况JSON从一个返回REST service 返回电影对象列表所有对象都包含大量信息其中有几个字段REST 服务结果根据可用信息而变化举个例子电影总是有一些屏幕截图图像演员和导演根据所讨论的电影可能有一张或多张图像
Intersection Observer rootMargin 在 x 轴上未按预期工作

我正在尝试使用交集观察器 API 为一个侧面项目实现图像延迟加载我面临的问题是无论我如何调整 x 轴的 rootMargin 例如 0px 300px 0px 0px 交叉点似乎只发生在视口上预期在进入视口之前相交 300px 时加
是否可以在 C# 类库中创建 Windows 窗体？

我一直在用 C 构建 DLL 类库用作提供自定义 API 的应用程序的附加组件到目前为止它们主要包括与数据库计算磁盘操作等的接口我很想知道是否可以在 DLL 类库内构建和显示 Windows 窗体显示文本框按钮等 I tri
如果“cargo build”比直接运行 rustc 慢，为什么我应该使用 Cargo？

我创建了一个简单的 hello world 程序 fn main println Hello world 编译代码时使用rustc vs cargo build 货物命令显得较慢它需要1 6s for cargo build vs 1s
我们如何在Python中通用地使用sin、cos、tan（包括用户定义的类型）？

编辑让我尝试改写并改进我的问题旧版本附在底部我正在寻找一种以类型通用的方式表达和使用自由函数的方法例子 abs x maps to x abs next x maps to x next at least in Python 3 x
如何使用nosetests测试函数是否在函数内被调用

我正在尝试为项目设置一些自动单元测试我有一些函数作为副作用它们偶尔会调用另一个函数我想编写一个单元测试来测试第二个函数是否被调用但我被难住了下面是伪代码示例 def a self data self get if len dat
FIREBASE 警告：无效的查询字符串段：[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在 Firebase 日志控制台中不断收到这些警告 FIREBASE 警告无效的查询字符串段我检查了所有内容但找不到一些原
Reactjs 意外的标记“<”

我用react redux redux创建了reactjs应用程序启动reactjs项目时在索引文件的第13行出现意外的令牌错误索引文件如下 ERROR in src index js Module build failed Synt
VHDL 中的进程是可重入的吗？

一个进程是否可以连续运行两次或多次VHDL 如果在进程的顺序执行未完成的情况下发生另一个事件在敏感信号列表上会发生什么有可能还是我的VHDL流程中的模型完全错误进程运行时不会发生任何事件当进程被事件唤醒时它会运行到完成结束进程
如何通过 C# 代码以编程方式构建解决方案文件？

我有一个包含许多项目的大型解决方案其中一个是安装项目还有许多当前版本存储在单独的分支中我有一个曾经在 NET 2 中工作的构建工具但自从我们升级到 NET 4 后就不再工作了在内部新的 NET 4 版本的构建工具使用Micros
如何估计 Spark DataFrame 中每列的大小（以字节为单位）？

我有一个非常大的 Spark DataFrame 其中有许多列我想对是否将它们保留在我的管道中做出明智的判断部分取决于它们有多大我所说的有多大是指缓存此 DataFrame 时 RAM 中的大小以字节为单位我希望这是对处理此数

如何估计 Spark DataFrame 中每列的大小（以字节为单位）？

如何估计 Spark DataFrame 中每列的大小（以字节为单位）？ 的相关文章

随机推荐

热门标签

如何估计 Spark DataFrame 中每列的大小（以字节为单位）？的相关文章