Spark 中的 RDD 内存占用

2023-12-21

我不确定内存占用的概念。当加载例如镶木地板文件时。 1GB 并在 Spark 中创建 RDD,每个 RDD 的内存食物打印是什么?


当您从 parquet 文件创建 RDD 时,在您对 RDD 运行操作(例如,首先收集)之前,不会加载/执行任何内容。

现在,您的内存占用很可能会随着时间的推移而变化。假设您有 100 个分区,并且它们大小相同(每个分区 10 MB)。假设您正在一个具有 20 个核心的集群上运行,那么在任何时间点您只需要10MB x 20 = 200MB内存中的数据。

除此之外,鉴于 Java 对象往往会占用更多空间,因此很难准确说出 1GB 文件将在 JVM 堆中占用多少空间(假设您加载整个文件)。它可以是我的两倍,也可以更多。

测试这一点的一个技巧是强制缓存 RDD。然后,您可以在 Spark UI 的“存储”下查看 RDD 占用了多少空间来缓存。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 中的 RDD 内存占用 的相关文章

随机推荐