Spark 分区：从单节点集群上的本地文件系统加载文件

2024-01-10

我有兴趣了解 Spark 在从本地文件系统加载文件时如何创建分区。

我正在使用 Databricks 社区版来学习 Spark。当我使用 sc.textfile 命令加载一个大小只有几千字节（大约 300 kb）的文件时，spark 默认情况下会创建 2 个分区（如partitions.length 给出的）。当我加载大约 500 MB 的文件时，它会创建 8 个分区（等于机器中的核心数量）。

在此输入图像描述 https://i.stack.imgur.com/7Lvwi.png

这里的逻辑是什么？

另外，我从文档中了解到，如果我们从本地文件系统加载并使用集群，则该文件必须位于属于该集群的所有计算机上的同一位置。这不会创建重复项吗？ Spark 如何处理这种场景？如果你能指出一些文章来阐明这一点，那将会有很大的帮助。

Thanks!

当 Spark 读取时本地文件系统默认分区数（由defaultParallelism标识）是所有可用核心的数量.

sc.textFile 将分区数计算为 defaultParallelism（本地 FS 情况下的可用核心数）和 2 之间的最小值。

def defaultMinPartitions: Int = math.min(defaultParallelism, 2)

参考自：火花代码 https://github.com/apache/spark/blob/e9f983df275c138626af35fd263a7abedf69297f/core/src/main/scala/org/apache/spark/SparkContext.scala#L2329

第一种情况：文件大小 - 300KB

由于文件大小非常小，因此分区数计算为 2。

第二种情况：文件大小 - 500MB

分区数等于默认并行度。在你的例子中，它是 8。

从 HDFS 读取时，sc.textFile 将采用 minPartitions 和基于 hadoop 输入分割大小除以块大小计算得出的分割数之间的最大值。

但是，当将 textFile 与压缩文件（file.txt.gz 而不是 file.txt 或类似文件）一起使用时，Spark 会禁用拆分，从而导致 RDD 仅具有 1 个分区（因为对 gzip 压缩文件的读取无法并行化）。

对于有关从集群中的本地路径读取数据的第二个查询：

文件需要在集群中的所有机器上可用，因为 Spark 可能会在集群中的机器上启动执行器，并且执行器将使用 (file://) 读取文件。

为了避免将文件复制到所有机器，如果您的数据已经位于 NFS、AFS 和 MapR 的 NFS 层等网络文件系统之一中，那么您只需指定 file:// 路径即可将其用作输入；只要文件系统安装在每个节点上的相同路径上，Spark 就会处理它。每个节点都需要有相同的路径。请参阅：https://community.hortonworks.com/questions/38482/loading-local-file-to-apache-spark.html https://community.hortonworks.com/questions/38482/loading-local-file-to-apache-spark.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark 分区：从单节点集群上的本地文件系统加载文件的相关文章

通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja

随机推荐

如何使用设备ID获取USB硬件ID？

如何使用设备ID获取USB设备的硬件ID 我使用的是vc 6 0 操作系统是xp 使用wmi可以吗终于解决了我的问题谢谢你的回复我在这里发布代码它可能对某人有用通过这段代码我们可以获取与我们系统连接的设备的所有硬件ID HDEV
为什么在 WPF 中的菜单上操作时 TextBox 不会失去焦点？

如果我编辑与 ViewModel 绑定的 TextBox 上的文本然后单击主应用程序菜单以保存数据 ViewModel 不会使用新数据进行更新因为不知何故 TextBox 不会失去焦点然后数据未更新为什么文本框不会失去焦点我应该
Python循环引用

尝试在同一个文件中拥有两个相互引用的类让它发挥作用的最佳方法是什么 class Foo object other Bar class Bar object other Foo if name main print all ok 问题似乎在
Android 空指针异常不确定如何修复它

我的代码中的一行不断收到空指针异常错误但我不知道如何修复它它基本上只是另一种方法的副本所以我不知道为什么它会给我错误任何帮助将不胜感激 import java util Calendar import android app Ac
Java 上有关无效 XML 字符的错误

在 Java 上解析 xml 文件时出现错误 An invalid XML character Unicode 0x0 was found in the element content of the document xml 来自 web
Kotlin：安全的 lambda（无内存泄漏）？

读完后这篇关于内存泄漏的文章 https medium com freenet engineering memory leaks in android identify treat and avoid d0b1233acc8 yet4778
“如果不是 _____ 就什么都不是”以及它检查的内容

VB 中的这条语句是检查对象是否存在还是检查内容是否为空我认为它正在检查内容是否为空但我想仔细检查一下提前致谢 VBA 中 null 的概念即NullReferenceException null 如果您熟悉 C 或者NullPo
流星当前活跃用户？

我正在流星中制作一个简单的聊天室我如何获取当前活跃用户的列表有没有办法真正获取当前连接客户端的列表我昨天浏览了流星源看看是否已经有类似的东西了我找不到连接的标志或任何东西我想你会有两种选择在客户端和服务器中为每个连接的用户实
以编程方式更新 MS Word 中 excel 对象的链接命名范围 (2007)

第一个问题请问这个问题是否已经解决但我已经彻底搜索并找不到答案我已将几个命名范围链接到一个 Word 文档中此 Word 文档以及带有命名范围的相关 Excel 工作簿是一个模板它供同事制作这些模板 Word 文档和 Exce
在python中添加年份

如果我想在程序中添加 100 年为什么它显示错误的日期 import datetime stringDate January 10 1920 dateObject datetime datetime strptime stringDate
正则表达式仅匹配前面有空格或没有任何内容的特定字符（行首）

考虑以下推文 RT username This is my tweet Check this RT username This is my tweet I have PART 2 downloaded In a preg replace 调
将 Postgresql 数组直接读入 Golang Slice

我有一个查询返回一行其中有一列包含字符串数组 character varying http wp me p62MJv Jc http tyrant click 1LGBoD6 有没有简单的方法可以将其直接读入 Golang 切片中例如
在我的项目中使用 jar 时出错

我使用 Java 1 8 来创建我的 jar 我在Java项目中可以使用它但是在Android项目中出现以下错误 Error Error converting bytecode to dex Cause Dex cannot parse
显式复制构造函数和 std::sort

当对具有显式复制构造函数的对象容器进行排序时我收到我不理解的编译器错误来自 g 4 8 2 和 clang 3 4 均处于 std c 11 模式我创建了一个简单的示例来演示该问题 class A public explicit A
如何在sql中将分钟拆分为天、小时和分钟

我有一个由分钟组成的专栏有没有什么简单的方法可以将分钟列拆分为仅显示天小时分钟的一列 DURATION 67 gt 1 hour 7 minutes 1507 gt 1 day 1 hour 7 minutes 23 gt 23 mi
Open Shift Kafka 实例中默认不创建 Topic

我正在使用下面的 Camel Route 向 Kafka 实例生成消息但该主题不存在于实例中当 Kafka 实例中不存在主题时如何创建主题 Component public class kafkaConfig extends Rout
如何通知视图模型的所有属性已更改

在MVVM模式中如何通知视图模型的所有属性发生了变化我不想调用所有属性的所有notifypropertychanged 事件我有一个实体类在视图模型中我将实体的所有公共字段编写为公共属性我想重新绑定新实体并只编写一行代码来通知所
什么 API 可以使用 Java 将复选框添加到 MS Word 文件？

我想编写一个程序来创建 MS Word 文件但某些 API 无法向文档添加复选框有人这样做过吗谢谢 open office的api怎么样 http api openoffice org docs common ref com sun
编译时与运行时错误[重复]

这个问题在这里已经有答案了可能的重复运行时与编译时 https stackoverflow com questions 846103 runtime vs compile time 我如何知道 Java 中的特定代码行是否可能引发编译时
Spark 分区：从单节点集群上的本地文件系统加载文件

我有兴趣了解 Spark 在从本地文件系统加载文件时如何创建分区我正在使用 Databricks 社区版来学习 Spark 当我使用 sc textfile 命令加载一个大小只有几千字节大约 300 kb 的文件时 spark 默认情况

Spark 分区：从单节点集群上的本地文件系统加载文件

Spark 分区：从单节点集群上的本地文件系统加载文件 的相关文章

随机推荐

热门标签

Spark 分区：从单节点集群上的本地文件系统加载文件的相关文章