如何在 Spark 中设置 ORC 条带大小

2023-12-05

我正在尝试在 Spark(2.3) 中生成数据集并以 ORC 文件格式编写。我正在尝试设置 ORC 条带大小和压缩大小的一些属性。我从中得到了暗示this所以帖子。但 Spark 不尊重这些属性，并且生成的 ORC 文件中的条带大小比我设置的要小得多。

val conf: SparkConf = new SparkConf().setAppName("App")
  .set("spark.sql.orc.impl", "native")
  .set("spark.sql.hive.convertMetastoreOrc", "true")
  .set("spark.sql.orc.stripe.size", "67108864")
  .set("spark.sql.orc.compress.size", "262144")
  .set("orc.stripe.size", "67108864")
  .set("orc.compress.size", "262144")

data.sortWithinPartitions("column")
  .write
  .option("orc.compress", "ZLIB")
  .mode("overwrite")
  .format("org.apache.spark.sql.execution.datasources.orc")
  .save(outputPath)

我还尝试将数据写为：

data.sortWithinPartitions("column")
  .write
  .option("orc.compress", "ZLIB")
  .option("orc.stripe.size", "67108864")
  .option("orc.compress.size", "262144")
  .mode("overwrite")
  .format("org.apache.spark.sql.execution.datasources.orc")
  .save(outputPath)

但没有运气。

ORC 文件转储的相关部分：

File Version: 0.12 with ORC_135
Rows: 3174228
Compression: ZLIB
Compression size: 32768
...
Stripe: offset: 3 data: 6601333 rows: 30720 tail: 2296 index: 16641
Stripe: offset: 6620273 data: 6016778 rows: 25600 tail: 2279 index: 13595
Stripe: offset: 12652925 data: 6031290 rows: 25600 tail: 2284 index: 13891
Stripe: offset: 18700390 data: 6132228 rows: 25600 tail: 2283 index: 13805
Stripe: offset: 24848706 data: 6066176 rows: 25600 tail: 2267 index: 13855
Stripe: offset: 30931004 data: 6562819 rows: 30720 tail: 2308 index: 16851
Stripe: offset: 37512982 data: 6462380 rows: 30720 tail: 2304 index: 16994
Stripe: offset: 43994660 data: 6655346 rows: 30720 tail: 2291 index: 17031

以下适用于 Spark 2.4.4。

spark = (SparkSession
     .builder
     .config('hive.exec.orc.default.stripe.size', 64*1024*1024)
     .getOrCreate()
     )
df = ...
df.write.format('orc').save('output.orc')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

ORC

如何在 Spark 中设置 ORC 条带大小的相关文章

Scala 和 Spark：Windows 上的 Dataframe.write._

有人设法使用 Spark 写入文件尤其是 CSV 吗数据框 http spark apache org docs latest api scala index html org apache spark sql Dataset在 Win
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
如何从spark管道逻辑模型中提取变量权重？

我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集训练和测试导入为 oas sql DataFrame 对象执行以下代码后生成的模型是oas ml tuning CrossValidatorMode
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出

随机推荐

MySQL 安装：错误：无法构建 gem 本机扩展

我正在尝试将 MySQL 安装到最新版本因为某些安装过程中出现了错误我运行命令gem install mysql我收到以下信息构建本机扩展这可能需要一段时间错误错误安装 mysql 错误失败构建 gem 本机扩展 Sys
R 中用于文本分类的 SVM

我正在使用支持向量机对我的文本进行分类但实际上我并没有得到结果而是得到了数值概率数据框 1 20 训练集 21 50 测试集 Updated ou lt structure list text structure c 1L 6L 1L
功能区 GUI 指南

我正在考虑在我的一个应用程序中实现功能区 GUI 当然希望遵守 MS 指南因此它感觉就像普通的功能区等但我正在尝试找出如何解决动态更改中的特定问题丝带我正在创建一个概念游戏编辑器请不要问为什么要使用功能区因为这纯粹是一个概念想法
有没有一种简单的方法从数组中删除重复元素？

我想从数组中删除重复的元素 use itertools Itertools use std collections HashSet derive Debug struct Person name String age u32 fn main
0-1多维背包

因此我正在尝试生成一种算法该算法将找到 n 个物品在我的情况下为 4 个的最佳组合这些物品只能在最大重量容量下放入背包一次 0 1 概括起来可能更有效我想在我的背包中放置不超过四个独特的物品以便它们的重量小于某个值 W 同时最
如何在 facebook-api 中标记照片？

我想问是否如何可以使用 FB API 图形或 REST 来标记照片我已经成功创建了一个相册并在其中上传了一张照片但我仍然坚持标记我已获得权限和正确的会话密钥到目前为止我的代码 try uid facebook gt getUser
Rails 中的“新建”操作如何重定向到“创建”？

在 Rails 中我可以使用以下命令自动创建一组用于 CRUD 操作的路由resources在路线文件中这创造了index new create edit show update并破坏路线我了解这些路由如何工作的一般流程通常当调用路
Java 如何将音频数据存储在字节数组中。

谁能告诉我如何将音频文件 au 中的音频数据读取存储到字节数组中我查看了 Oracle 上的 Java 文档但我不知道如何使用这些信息来编写程序我猜测音频数据您需要 AU 文件中的音频样本不包括标头信息和元数据如果您只想将文件
获取跨域iframe的DOM内容[重复]

这个问题在这里已经有答案了我有一个用于跨域网站的 iframe 我想读取 iframe 的 DOM 我相信这是可能的因为使用检查器我什至可以修改 iframe 的 DOM 然而我尝试以各种方式阅读它都会遇到相同的来源政策我想要的
Azure Devops 管道，用于使用 iPhone 应用程序和 watchos 应用程序构建 ios 捆绑包

我想使用 Azure Devops 管道来构建 ios 捆绑包其中包含 iphone 应用程序和 watchos 应用程序有一个工作区包含 3 个应用程序一个用于手机两个用于手表我的工作区我的手机应用程序我的手表应用程序 My
我的组合框不显示我在 VBA 中添加的值

我正在尝试向用户窗体中的组合框添加选项当我运行代码时 Excel 不会给出任何错误但是当用户窗体显示时它不会显示我之前添加到组合框中的实体也就是说当我单击组合框时它不显示任何选项只显示一个空白行就好像没有添加任何项目一样这
我怎样才能摆脱角度的 $parent

Here s Plunker 我在带有 ng include 的控制器中有一个外部模板它根据按钮的单击事件显示和隐藏它按要求工作但在 ng include 模板中使用 parent 还有其他更好的方法吗 Html div div di
如何从 C++ 生成均匀分布在 0 和 1 之间的随机双精度数？

如何从 C 生成均匀分布在 0 和 1 之间的随机双精度数当然我可以想到一些答案但我想知道标准做法是什么良好的标准合规性随机性好速度好对于我的应用程序来说速度比随机性更重要多谢 PS 如果重要的话我的目标平台是 Linux
Node.js：从不同域加载页面的 html

我想知道如何加载托管在不同域上的 HTML 我正在使用 JavaScript 并且想要创建一个书签以便我能够解析外部 HTML 我已经在谷歌上搜索了几个小时但毫无结果 JavaScript 不允许发出跨域请求这是一个很大的安全风险相
不计算列中重复值的值的累积和

我在 R 中有这样的数据 x lt c 1 2 2 3 4 4 7 8 y lt c 300 200 200 150 100 100 30 20 df lt data frame x y 数据集的累积为 cum df lt data fra
需要帮助防止无限循环。属性设置

所以我有一个颜色选择器用户可以使用 RGB 或 HSB 选择颜色每个值都有滑块属性例如当用户设置红色时我将计算 HSB 值以反映新的颜色值当用户设置 Hue 时 RGB 值将从 HSB 值重新计算但请注意那里有一个循环当我
Azure AD B2C：User.Identity.Name 为 null，但 User.Identity.m_instance_claims[9] 具有名称

用户通过我的 Azure AD B2C Web 应用程序身份验证后我尝试检索User Identity Name 然而它是空的然而 User Identity m instance claims 9 如下面的屏幕截图所示确实具有正确
如何以编程方式隐藏选项卡栏，然后展开视图以适合

我从这个问题中得到了代码如何以编程方式隐藏 UITabBarController 这很棒但是视图现在无法扩展以适应选项卡栏留下的空间我已经为视图设置了适当的 UIViewAutoresizingMasks 但我假设仅仅因为它的隐藏并不
如何在文本按钮上放置图标？

我想在同一个按钮上同时显示图像图标和文本例如在 Word 中我在按钮上设置了图标但文本消失了 HANDLE hBmp HBITMAP LoadImage g hDllInstance MAKEINTRESOURCE IDB BITMA
如何在 Spark 中设置 ORC 条带大小

我正在尝试在 Spark 2 3 中生成数据集并以 ORC 文件格式编写我正在尝试设置 ORC 条带大小和压缩大小的一些属性我从中得到了暗示this所以帖子但 Spark 不尊重这些属性并且生成的 ORC 文件中的条带大小比我设置的

如何在 Spark 中设置 ORC 条带大小

如何在 Spark 中设置 ORC 条带大小 的相关文章

随机推荐

热门标签

如何在 Spark 中设置 ORC 条带大小的相关文章