具有 Parquet 和分区的 Spark DataFrames

2023-11-24

我无法找到有关此主题的太多信息，但假设我们使用数据帧读取 10 个块的 parquet 文件，spark 自然会创建 10 个分区。但是，当数据帧读入文件来处理它时，它不会处理很大的数据与分区比率，因为如果它处理未压缩的文件，块大小会更大，这意味着分区也会更大。

因此，让我澄清一下，镶木地板已压缩（这些数字并不完全准确）。 1GB Par = 5 个块 = 5 个分区，可以解压到 5GB，使其成为 25 个块/25 个分区。但是，除非您对 1GB par 文件重新分区，否则您将只能使用 5 个分区，而最佳情况下应该是 25 个分区？或者说我的逻辑是错误的。

重新分区以提高速度有意义吗？还是我在思考这个问题是错误的。有人能解释一下吗？

假设：

1 个块 = 1 个 Spark 分区
1 个核心在 1 个分区上运行

Spark DataFrame 不会在内存中加载 parquet 文件。它使用 Hadoop/HDFS API 在每个操作期间读取它。因此，最佳分区数量取决于 HDFS 块大小（与 Parquet 块大小不同！）。

Spark 1.5 DataFrame对parquet文件进行分区如下：

每个 HDFS 块 1 个分区
如果 HDFS 块大小小于 Spark parquet 块大小中配置的分区，将为多个 HDFS 块创建分区，例如分区的总大小不小于 parquet 块大小

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

具有 Parquet 和分区的 Spark DataFrames 的相关文章

Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC

随机推荐

如何设置适用于 Android 的 Google 云消息传递？

我正在尝试实施Google Cloud Messaging for Android GCM 通过遵循demo 但我无法执行一些命令例如 ant war android update project name GCMDemo p targe
iOS - 多次点击手势识别器

在我的应用程序中我必须检测单击双击和三次点击所以我正在使用 UITapGestureRecognizer 我正在使用以下代码 UITapGestureRecognizer oneTap UITapGestureRecognizer
调试 Sunspot 上的 Solr 搜索查询

在 Rails 上使用 Sunspot gem 时如何调试 Solr 搜索查询我有一些查询返回了异常高的分数我试图弄清楚为什么会发生这种情况似乎没有任何调试信息暴露给Sunspot 所以我认为我需要直接通过Solr进行调试幸运的是
文字闪烁 jQuery

在 jQuery 中使文本闪烁的简单方法是什么以及停止它的方法是什么必须适用于 IE FF 和 Chrome 谢谢一个让某些文本闪烁的插件对我来说听起来有点矫枉过正尝试这个 blink each function var elem t
如何从 .h5 文件正确加载带有自定义层的 Keras 模型？

我构建了一个带有自定义层的 Keras 模型并将其保存到 h5通过回调文件ModelCheckPoint 当我在训练后尝试加载该模型时出现以下错误消息 init missing 1 required positional argumen
有什么理由使用 System.Uri 吗？

我仔细看了一下似乎它已经从根本上坏了只有 5 个实例方法未标记为过时似乎没有任何内置方法解析查询字符串变量没有方法可以改变 Uri 例如附加新的查询变量 HttpUtility 适用于字符串不适用于 URI 那么它有什么好处吗
为什么我的 WPF 应用程序中出现“无法加载 DLL 'sqlite3'”？

我将我认为必要的 SQLite 和 sqlite net 包添加到我的应用程序中但是在运行它时我遇到了一个异常 System DllNotFoundException 未被用户代码处理 HResult 2146233052 消息无法
加快 write.table 的性能

我有一个data frame我想把它写出来我的尺寸data frame为 256 行 x 65536 列有什么更快的替代品write csv data table fwrite 由 Otto Seiskari 贡献提供 1 9 8 版
使用另一个列表的元素名称创建空列表

假设我们有一个列表my list a b c 我想做的是创建空列表 a b c 这样我就可以根据它们的名称向它们添加一些元素以编程方式创建变量是一个非常糟糕的主意使用这些名称作为键创建一个字典 my lists key for key
为什么 OpenJDK 11 Java 垃圾收集器*减少*此示例程序中的可用内存？

当我使用 OpenJDK 11 Windows 10 上的 Zulu 发行版编译并运行以下非常简单的 Java 程序时 public class GCTest public static void main String args Sys
使用 VBA 在 Excel 工作表中创建表

我下面有这段代码它将自动选择一个范围有谁知道如何添加代码以在选定范围内创建表格 Thanks Sub DynamicRange Best used when first column has value on last row and
Windows 上的 Python 子进程输出？

我在从子进程标准输出管道获取输出时遇到了一些困难我正在通过它启动一些第三方代码以提取日志输出直到最近更新第三方代码为止一切都工作正常更新后 python 开始无限期地阻塞并且实际上不显示任何输出我可以手动启动第三方应用程序并查
协方差如何比多态性更酷......并且不冗余？

NET 4 引入了协方差我想它是有用的毕竟 MS 历尽千辛万苦才把它添加到 C 语言中但是为什么协方差比传统的多态性更有用呢我写这个例子是为了理解为什么我应该实现协方差但我仍然不明白请赐教 using System using
gitcherry-pick多次提交[重复]

这个问题在这里已经有答案了可能的重复如何挑选一系列提交并合并到另一个分支我想从一个分支中挑选 19 个提交并将它们应用到另一个分支所有提交都是连续的提交 1 提交 2 提交 19 并且最后一次提交不是最近的提交即在其之后还有其
如何使用标签提交 POST 表单？

我如何提交 POST 表单至showMessage jsp仅使用 a href tag a
使用 onbeforeunload 时抑制确认对话框

我正在使用 onbeforeunload 事件发送 ajax 请求来执行一些清理任务当我使用 onbeforeunload 时它会显示关闭选项卡时的确认对话框我想要的不是显示任何确认对话框而只是发送清理请求以下是我正在使用的脚本
参数变量存储在内存中的什么位置？

我正在用 C 编写一些代码当遇到一个方法时我想知道参数变量存储在内存中的位置我知道以下几点全局变量 gt 存储在 static 的代码部分静态变量 gt 局部自动变量方法内部 gt 存储在堆栈中局部静态变量 gt 存储在堆栈中
iOS 17 更新后 PWA 应用在 Safari 上崩溃

我的 Angular 应用程序在 iPhone 上作为 PWA 正常工作但在上次 ios17 更新后该应用程序崩溃了即使我在 Safari 上清除现金它也可能会再次工作几分钟然后当我关闭时该网站的 PWA 快捷方式将停止工作苹果
CoreBluetooth反复断开连接

我已经上下查找过这个问题但似乎没有人遇到这个问题我有两台 iPad 其中一个充当始终位于前台的蓝牙外设由于我对中央侧更感兴趣因此我将中央 iPad 背景设置为支持 BLE central 我的工作流程如下中央应用程序运行并开始扫描
具有 Parquet 和分区的 Spark DataFrames

我无法找到有关此主题的太多信息但假设我们使用数据帧读取 10 个块的 parquet 文件 spark 自然会创建 10 个分区但是当数据帧读入文件来处理它时它不会处理很大的数据与分区比率因为如果它处理未压缩的文件块大小会更大

具有 Parquet 和分区的 Spark DataFrames

具有 Parquet 和分区的 Spark DataFrames 的相关文章

随机推荐

热门标签