了解 Spark 创建的分区数量

2024-01-26

读取 .csv 时 pyspark-sql 将创建多少个分区？

我对此的理解是 number of partitions = math.ceil(file_size/spark.conf.get('spark.sql.files.maxPartitionBytes'))

在我的机器上：

spark.conf.get('spark.sql.files.maxPartitionBytes')
output: 
'134217728b' #128MBs

但是，我没有观察到这种行为。我创建了一个在磁盘上占用 96 MB 的文件。我在本地模式下运行 Spark。我有一台 8 核笔记本电脑。我认为它应该读入 1 个分区。但是，该文件在 8 个分区中被读取。以下是我使用过的代码库：

import pandas as pd
import numpy as np
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
#creating a small DataFrame. This will occupy 96 MBs on disk
pd.DataFrame({'id':np.arange(10000000),'b':np.random.choice(['a','b','c','d'],size=(10000000,),p=[0.25,0.25,0.25,0.25])}).to_csv('df_s.csv',index=None)
sd=spark.read.csv('df_s.csv',schema="id int, b string")
sd.rdd.getNumPartitions()
output: 8

您能帮我理解为什么无论文件大小如何我都会看到 8 个分区吗？

实际的公式实际上比这更复杂一些。检查下面的计算。你可以找到源代码here https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/DataSourceScanExec.scala#L607-L653.

这是您的配置和文件

Spark Configuration	Value	Default
spark.sql.files.maxPartitionBytes	128M	128M
spark.sql.files.openCostInBytes	4M	4M
spark.executor.instances	1	local
spark.executor.cores	8	your cores
spark.default.parallelism	8	=spark.executor.instances * spark.executor.cores
data files size	64M
data files count	1

这是实际的公式

	Formula	Bytes
DefaultMaxSplitBytes	= spark.sql.files.maxPartitionBytes	134,217,728
OpenCostInBytes	= spark.sql.files.openCostInBytes	4,194,304
DefaultParallelism	= spark.default.parallelism	8
TotalBytes	= DataBytes + (# files * OpenCostInBytes)	71,303,168
BytesPerCore	= TotalBytes / DefaultParallelism	8,912,896
MaxSplitBytes	= MIN(DefaultMaxSplitBytes, MAX(OpenCostInBytes, BytesPerCore))	8,912,896
Estimated number of partition	= TotalBytes / MaxSplitBytes	8

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

了解 Spark 创建的分区数量的相关文章

Pyspark dataframe：如何按组应用 scipy.optimize 函数

我有一段运行良好的代码但使用 pandas 数据帧 groupby 处理但是由于文件很大 gt 7000 万组我需要转换代码以使用 PYSPARK 数据框架这是使用 pandas dataframe 和小示例数据的原始代码 imp
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
无法在 AWS Glue PySpark 开发终端节点中正确运行脚本

我已经配置了一个 AWS Glue 开发终端节点并且可以在 pyspark REPL shell 中成功连接到它像这样https docs aws amazon com glue latest dg dev endpoint tutor
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
如何在 AWS Glue 中指定联接类型？

我正在使用 AWS Glue 连接两个表默认情况下它执行INNER JOIN 我想做一个LEFT OUTER JOIN 我参考了 AWS Glue 文档但无法将联接类型传递给Join apply 方法有没有办法在 AWS Glue
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF

随机推荐

GNU Make for 带有两个变量的循环

我想写一些这样的内容 foreach var1 var2 LIST1 LIST2 cp var1 var2 我该如何在 GNU makefile 中执行此操作 Beta关于使用join的建议是正确的但问题是以构造包含空格的命令行的方式使
Firestore 活动文档快照侦听器中断排序

我遇到了一个 Firestore 问题希望有人可以帮助我解决我有一个活动文档快照侦听器它似乎破坏了排序行为我不确定为什么在组件的构造函数中我初始化文档快照侦听器一次 this listen this fs collection
数据库允许应用程序始终通过 SP 进行 CRUD 操作是最佳实践吗？

我听过这背后的推理我很好奇其他人是否认为这是最佳实践好主意一种推理是限制对数据库表的直接访问并强制应用程序用户使用 SP 存储过程进行 CRUD 操作将允许 DBA 在将 SP 投入生产之前进行细粒度控制以批准审查 SP 避
从 monodroid 类库访问资源

是否可以从引用类库的 monodroid 应用程序中的 monodroid 类库访问文件使用构建操作 AndroidAsset 我在类库中创建了一个 Assets 文件夹并添加了一个带有构建操作 Android Asset 的文本文件
如何减少 TextField 上 prefixIcon 的填充？

我不知道如何超越 48px 材质库默认值我快速浏览了 SDK 但没有找到任何东西我知道这与 prefixIcon 参数本身有关因为无论里面放什么它总是 48px 或其他任何值我有一个自定义 SDK 所以如果有人知道它在哪里我想减
GIT 接收后结账，无需根文件夹

我是 git 新手试图弄清楚如何通过检查网络根目录来更新每次推送的网站我搜索了 stackoverflow 只找到了有关如何克隆的主题这不是我想要的到目前为止我已经设置了本地和远程存储库以及接收后挂钩 bin sh GIT WO
iOS：在 UIImage 上绘制 NSString 和边框

我想在我已有的 UIImage 上绘制一个 NSString 和一个边框我找到了一种将 NSString 绘制为 UIImage 的方法但我需要它在我提供的图像上绘制 UIImage imageFromText NSString tex
Android Firebase Analytics 控制台中的自定义事件报告

如果这是发布此问题的不正确位置请提前接受我的歉意因为我不确定会是什么我想要完成的是甚至使用 Firebase 分析来记录自定义该分析在 Firebase 控制台中生成与他们的示例类似的报告select content事件其触发方式
无法安装 phpMyAdmin 错误：php71w-common 与 php-common-5.4.16-43.el7_4.1.x86_64 冲突

我刚刚安装了 CentOS 7 和 PHP 7 1xx 和 MySQL 但无法安装 phpMyAdmin 我有一条错误消息但在 Google 上没有答案是的只有一个答案但它本身给了我相同的错误消息 rpm iUvh http dl
MySQL：`... ADD INDEX(a); 之间的区别... ADD INDEX(b);` 和 `... ADD INDEX(a,b);`？

有人可以告诉我这两者有什么区别 ALTER TABLE x1 ADD INDEX a ALTER TABLE x1 ADD INDEX b AND ALTER TABLE x1 ADD INDEX a b 我知道这涉及到最基本的问题但有时
Javascript 合并具有嵌套属性的对象

让我们看一下下面的例子 var ref fullName rules type string minLength 4 maxLength 64 description Full name of a user var user fullNam
如何将大文件导入到 PostgreSQL 中？

我在一个新项目中现在必须使用现有的 PostgreSQL 数据库该应用程序是使用 CakePHP 构建的我在导入时面临的问题是数据库的文件大小约为 4 8 GB 而我对 PostgreSQL 完全陌生我曾研究过 MySql 和 No
数据结构填充

C 中的数据结构填充是什么以及如何检查填充字节的字节数 class a public int x int y int z 处理器要求某些类型的数据具有特定的对齐方式例如处理器可能需要int位于 4 字节边界上因此例如一个int可以
LinkedBlockingQueue 的 Java 性能问题

这是我在 stackoverflow 上的第一篇文章我希望有人能帮助我我的 Java 6 性能大幅下降LinkedBlockingQueue 在第一个线程中我生成一些对象并将其推入队列在第二个线程中我将这些对象拉出来当take
如何在 Nunit 中调用 WPF Dispatcher？

我想测试一个使用数据字段值呈现文本块的应用程序渲染完成后我想获得实际宽度和实际高度一切正常当我尝试测试该应用程序时问题首先出现我无法从测试项目调用调度程序以下是代码 this Loaded s e gt TextBlock t
Xcode 6.1 - 如何卸载命令行工具？

我通过发出安装了 Xcode 命令行工具xcode select install 现在我想卸载它不卸载Xcode 我试过了 sudo Developer Library uninstall devtools mode all 但后来我得到
模块依赖 - Android Studio

我的项目 M1 M2 下有 2 个模块 Project M1 M2 早些时候我将 M1 作为我的主要应用程序然而需要新的应用程序 M2 与 M1 共享许多通用内容因此我创建了一个新模块 M2 并以 M1 作为依赖项为了实现这一点
使用带有子存储库和子模块的深层 Git 存储库-存储库更改权限？

我决定默认限制存储库树中的可见范围以便为精美的东西创建公共文件夹现在因为有很多子存储库我得到了一个痛苦的提交或一些聪明的想法我不确定最好的方法我考虑过使用 find 遍历存储库然后对每个存储库进行一致的虚拟提交例如 defau
如何将网络摄像头转为 rtsp

我有一个产品可以在输入 rtsp url 后分析视频我想使用网络摄像头通过网络摄像头 rtsp 流式传输并提供我的产品我怎样才能做到这一点这取决于您使用的网络摄像头大多数支持 RTSP 但许多不发布访问流的接口因为它们设计为与网
了解 Spark 创建的分区数量

读取 csv 时 pyspark sql 将创建多少个分区我对此的理解是 number of partitions math ceil file size spark conf get spark sql files maxPartiti

了解 Spark 创建的分区数量

了解 Spark 创建的分区数量 的相关文章

随机推荐

热门标签

了解 Spark 创建的分区数量的相关文章