Hive 分区表上的 Spark 行为

2024-04-15

我用的是 Spark 2。

实际上我不是执行查询的人，所以我不能包含查询计划。数据科学团队问过我这个问题。

我们将 Hive 表划分为 2000 个分区并以 parquet 格式存储。当在 Spark 中使用相应的表时，执行器之间恰好执行了 2000 个任务。但我们的块大小为 256 MB，并且我们预计分区数量（总大小/256）肯定会远小于 2000。 Spark使用数据的物理结构来创建分区是否有任何内部逻辑？任何参考/帮助将不胜感激。

更新：事实恰恰相反。实际上我们的表非常大，有 3 TB，有 2000 个分区。 3TB/256MB 实际上会达到 11720，但我们的分区数量与表的物理分区数量完全相同。我只是想了解任务是如何在数据量上生成的。

一般来说，Hive 分区不会 1:1 映射到 Spark 分区。 1个Hive分区可以拆分为多个Spark分区，一个Spark分区可以容纳多个Hive分区。

加载 hive-table 时 Spark 分区的数量取决于以下参数：

spark.files.maxPartitionBytes (default 128MB)
spark.files.openCostInBytes (default 4MB)

您可以检查分区，例如使用

spark.table(yourtable).rdd.partitions

这会给你一个数组FilePartitions其中包含文件的物理路径。

为什么你从 2000 个 Hive 分区中得到了 2000 个 Spark 分区，这对我来说似乎是巧合，根据我的经验，这种情况不太可能发生。请注意，spark 1.6 中的情况有所不同，spark 分区的数量类似于文件系统上的文件数量（1 个 Spark 分区对应 1 个文件，除非文件非常大）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hive 分区表上的 Spark 行为的相关文章

Scala 和 Spark：如何浏览图像？

我有一些图像的二进制文件我想遍历它们分配像素集群的每个节点必须获取与另一个节点的像素不同的一组像素的 RGB 并将这些 RGB 存储到斯卡拉集合我在用SparkContext binaryFiles但我不知道如何让 Apache S
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
Jupyter Notebook 上未显示结构化流输出

我有两个笔记本第一个笔记本正在使用 tweepy 从 twitter 读取推文并将其写入套接字其他笔记本正在使用 Spark 结构化流 Python 从该套接字读取推文并将其结果写入控制台不幸的是我没有在 jupyter 控制台上得到
在 Spark Dataframe 中将空值替换为 null

我有一个包含 n 列的数据框我想用空值替换所有这些列中的空字符串我尝试使用 val ReadDf rawDF na replace columnA Map gt null and val ReadDf rawDF withColumn
Spark Mongo 连接器，MongoShardedPartitioner 不起作用

出于测试目的我配置了一个 4 节点集群每个节点都有一个 Spark Worker 和一个 MongoDB Shard 这些是详细信息四台 Debian 9 服务器名为 Visa0 Visa 1 Visa 2 Visa 4 个节点上的
Oracle SQL：从表中选择数据和分区名称并截断分区

这是一个由两部分组成的问题 1 是否可以根据数据所在的分区使用 select 语句检索其名称ROWID或者其他一些标识符 eg SELECT DATA ID CATEGORY VALUE PARTITION NAME FROM MYTABL
按分区“内”键进行高效分组

我正在尝试调整一个流程来激发火花基本上该过程分析来自 JDBC 数据源的批量数据每条记录都有一个batchId 还有一个更高级别的groupId 批次数量较大提前未知组数约为 100 RAM 中可以容纳每个批次的记录数实际的分析
将数据作为 RDD 保存回 Cassandra

我试图从 Kafka 读取消息处理数据然后将数据添加到 cassandra 中就像它是 RDD 一样我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
如何查找组中第一个非空值？（使用dataset api进行二次排序）

我正在研究一个代表事件流的数据集例如从网站跟踪事件时触发所有事件都有一个时间戳我们经常遇到的一个用例是尝试查找给定字段的第一个非空值例如类似的东西最能让我们到达那里 val eventsDf spark read json jso
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
在Python Spark中查看RDD内容？

在 pyspark 中运行一个简单的应用程序 f sc textFile README md wc f flatMap lambda x x split map lambda x x 1 reduceByKey add 我想使用 forea
Spark Worker 在 Heartbeater 中与 Spark Driver 通信的超时时间为 3600 秒

我没有配置任何超时值而是使用默认设置在哪里配置3600秒超时怎么解决呢错误信息 18 01 10 13 51 44 WARN Executor Issue communicating with driver in heartbeat
消息：Hive 架构版本 1.2.0 与 Metastore 的架构版本 2.1.0 不匹配 Metastore 未升级或损坏

环境 spark2 11 hive2 2 hadoop2 8 2 hive shell 运行成功并且没有错误或警告但是当运行application sh时启动失败 usr local spark bin spark submit cl
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr

随机推荐

在锚链接中添加工具提示[重复]

这个问题已经存在了我想在文本中添加工具提示例如如果我有这样的代码 a href http google com title Google a 鼠标悬停时我想显示该工具提示使用title这是一个好方法但是我怎样才能让它看起来更好呢
Excel 2010：通过外部连接替换表格而不影响其他工作表

我有一本包含大量数据的大工作簿在一张纸上我有一张桌子该表用于其他工作表中使用的许多数据透视表这些数据透视表也用于其他工作表中该表的数据是定期手动复制的我现在有一个外部连接可以自动导入数据但我想避免影响其他工作表如何使用外部连接
在 ruby on Rails 4 中上传图像或文件

在这里我想要一个关于在不使用任何 gemfile 例如 peperclip carrierwave 等的情况下上传文件或图像的清晰概念之前我做了一些工作我可以在 assets images 文件夹中上传图像但是当我在显示页面中调
转置逗号分隔字段

我有一个如下所示的数据集并且正在使用 SAS Enterprise Guide 6 3 data have input id state cards 134 NC NY SC 145 AL NC NY SC run 我有另一个数据集其中
像 MySQL 一样从 Firebase 检索计数数据

当尝试从 MySQL 数据库中提取数据时我可以执行以下操作 SELECT FROM users ORDER BY id WHERE vehicle car 例如这应该让我获得所有驾驶汽车的用户而不是显示驾驶摩托车的用户 Firebas
表单：避免将非提交字段设置为 null

我有一个简单的模型源简化 class Collection public page public limit 以及表单类型 class CollectionType extends AbstractType public function
调用类指针上的方法[重复]

这个问题在这里已经有答案了并不是说我有问题而是我发现以下事实很奇怪 Class Shape class Shape protected int width height public Shape int a 0 int b 0 widt
C# Begin/EndReceive - 如何读取大数据？

当以 1024 字节为单位读取数据时如何继续从接收大于 1024 字节的消息的套接字读取数据直到没有剩余数据为止我是否应该仅使用 BeginReceive 来读取数据包的长度前缀然后在检索到该前缀后使用 Receive 在异步线程
RxJS v5 中的速率限制和计数限制事件，但也允许传递

我有很多事件要发送到服务但请求有速率限制每个请求都有计数限制每秒 1 个请求 bufferTime 1000 每个请求 100 个活动项目 bufferCount 100 问题是我不确定如何以有意义的方式将它们组合起来允许通过让
在 wine (linux) 下运行的 Windows 应用程序的屏幕截图

正如标题所说我想截取wine下运行的窗口应用程序的屏幕截图不是整个桌面 C 是首选但也可以使用 java 或 Pascal 提前致谢使用 imagemagick 的导入命令抓取窗口并将其转储到文件中进口文件 http www im
远程过程调用认证

我正在使用远程过程调用 RPC 在本地计算机上通信数据我的要求是使用 RPC 在两个处理之间通信数据但服务器应该通过某种方式对客户端进行身份验证我遇到了 RpcBindingSetAuthInfo 它设置身份验证和授权信息第四个参数
如何获取类属性的名称？

无论如何我可以获得类属性的名称IntProperty public class ClassName public static int IntProperty get return 0 something like below but I
在Python中按多个值对列表列表进行排序

我需要对列表列表进行排序其中每个列表entry外部列表是一个由三个整数组成的列表如下所示 3 1 0 1 2 3 3 2 0 3 1 1 诀窍是我需要对其进行排序entry 0 如果有平局则按以下顺序对它们进行排序entry 1 如果
OSX - 始终隐藏某些文件

我知道如何在终端中显示和隐藏隐藏文件但是有没有办法在显示隐藏文件时隐藏某些文件例如 DS STORE 可以这么说使某些文件超级隐藏吗 Use chflags与隐藏选项 ie chflags hidden fileToHide从 Fin
XMI 2.1.1 的 XSD

我必须使用 JAXB 解析 XMI 文件 xmi 版本 2 1 1 为此我必须生成与 XMI 文件相对应的 Java 类因此我需要 xmi 文件的 shema 定义才能使用 jxc 工具执行此操作我希望有人知道在哪里可以找到这个文件
`AVCaptureVideoDataOutput` 消耗的内存是 `AVCaptureMovieFileOutput` 的三倍

Issue 我正在使用 AVFoundation 来实现一个相机它能够在运行特殊的人工智能处理时录制视频拥有一个AVCaptureMovieFileOutput 用于视频录制 and a AVCaptureVideoDataOutput
当由不同模块导入时，如何访问 Python 2.7 中的相对路径

目标使用从各种 python 模块调用的通用实用程序函数时访问写入相同的临时文件背景我正在使用 python Unittest 模块来运行一组自定义测试这些测试通过 pySerial 与仪器接口因为我使用的是unittest模块
AudioConverterNew 返回 -50

我有一个关于使用 AudioQueue 服务的小问题我已按照 Apple 网站上提供的指南进行操作但是当我启动并运行音频队列时我收到消息告诉我 AudioConverterNew 返回 50 现在我知道 50 错误代码意味着存在错误
node.js可以导入java库吗

我有一个 Nodejs 应用程序它有一些昂贵的计算我正在考虑用 java 来完成这部分这样我就可以更轻松地利用线程和数学库有没有一种简单的方法可以让nodejs与外部java库对话 java 库将包含一个频繁调用 javascrip
Hive 分区表上的 Spark 行为

我用的是 Spark 2 实际上我不是执行查询的人所以我不能包含查询计划数据科学团队问过我这个问题我们将 Hive 表划分为 2000 个分区并以 parquet 格式存储当在 Spark 中使用相应的表时执行器之间恰好执行了 2

Hive 分区表上的 Spark 行为

Hive 分区表上的 Spark 行为 的相关文章

随机推荐

热门标签

Hive 分区表上的 Spark 行为的相关文章