从 Hive 表读取数据创建的 Spark DataFrame 的分区数

2024-02-18

我对 Spark 数据帧分区数量有疑问。

如果我有 Hive 表（员工），其中包含列（姓名、年龄、ID、位置）。

CREATE TABLE employee (name String, age String, id Int) PARTITIONED BY (location String);

如果员工表有 10 个不同的位置。所以数据在HDFS中会被划分为10个分区。

如果我通过读取 Hive 表（员工）的全部数据来创建 Spark 数据框（df）。

Spark 将为一个数据帧（df）创建多少个分区？

df.rdd.partitions.size = ??

分区是根据 HDFS 的块大小创建的。

想象一下，您已将 10 个分区作为单个 RDD 读取，如果块大小为 128MB，那么

分区数量 =（大小（10 个分区，以 MB 为单位））/ 128MB

将存储在 HDFS 上。

请参考以下链接：

http://www.bigsynapse.com/spark-input-output http://www.bigsynapse.com/spark-input-output

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

apachesparksql

从 Hive 表读取数据创建的 Spark DataFrame 的分区数的相关文章

Spark：如何使用动态嵌套数组转置和分解列

我应用了问题中的算法Spark 如何转置和分解具有嵌套数组的列 https stackoverflow com questions 69418239 spark how to transpose and explode columns wi
Apache Spark SQL 按范围对数据进行分组

我有一个表包含年龄列我想根据年龄将人们分为几组例如 0 5 5 10 10 15 然后我会对每组进行相同的计算并比较结果这样做的目的是看看年龄是否与其他变量相关请帮忙你可以用这个公式来计算年龄range start age a
Hive Full Outer Join为相同的Join Key返回多行

我正在对同一列上的 4 个表进行完全外连接我想为连接列中的每个不同值仅生成 1 行输入是 employee1 employee1 personid employee1 name 111 aaa 222 bbb 333 ccc
将包含无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]

这个问题在这里已经有答案了我正在尝试使用 Spark 2 0 2 将 JSON 文件转换为镶木地板 JSON 文件来自外部源因此架构在到达之前无法更改该文件包含属性映射在我收到文件之前属性名称是未知的属性名称包含不能在 parq
一个 RDD 中的值与另一个 RDD 中的值部分/完全匹配

我有两个 RDD 其中第一个 RDD 具有以下形式的记录 RDD1 1 2017 2 13 ABX 3354 gsfette 2 2017 3 18 TYET 3423 asdsad 3 2017 2 09 TYET 3423 rewriu
如果没有可用的指定分区路径，SPARK SQL 会失败

我在 EMR 中使用 Hive Metastore 我可以通过 HiveSQL 手动查询表但是当我在 Spark Job 中使用同一个表时它说输入路径不存在 s3 导致 org apache hadoop mapred InvalidI
与查找数据集连接后进行多列值查找

我正在使用spark sql 2 4 1v如何根据列的值进行各种连接我需要获得多个查找值map val给定值列的列如下所示样本数据 val data List 20 score school 2018 03 31 14 12 21 s
pyspark：类型错误：IntegerType 无法接受类型为的对象

在 Spark 集群上使用 pyspark 进行编程数据很大并且是碎片因此无法加载到内存中或轻松检查数据的完整性基本上看起来像 af b Current 20events 1 996 af b Kategorie Musiek 1 4
HIVE：GROUP BY 的行为与 MySQL 中不同

我对 MySQL 有一些经验最近我必须在 HIVE 上做一些工作两者之间的查询基本结构非常相似但是 HIVE 中的 GROUP BY 的工作方式似乎有点不同因此我无法实现以前在 MySQL 中使用 GROUP BY 可以实现的目标
Spark VectorAssembler 错误 - PySpark 2.3 - Python

我正在使用 pySpark 2 3 0 并创建了一个非常简单的 Spark 数据框来测试 VectorAssembler 的功能这是较大数据框的子集其中我只选择了一些数字双精度数据类型列 gt gt gt cols index ho
PySpark 中按降序排序

我正在使用 PySpark Python 2 7 9 Spark 1 3 1 并有一个数据框 GroupObject 我需要按降序过滤和排序试图通过这段代码来实现它 group by dataframe count filter coun
Spark：相当于数据帧中的 zipwithindex

假设我有以下数据框 dummy data a 1 b 25 c 3 d 8 e 1 df sc parallelize dummy data toDF letter number 我想创建以下数据框 a 0 b 2 c 1 d 3 e 0
如何解决错误“AttributeError：‘SparkSession’对象没有属性‘序列化器’？

我正在使用 pyspark 数据框我有一些代码试图在其中转换dataframe to an rdd 但我收到以下错误 AttributeError SparkSession 对象没有属性序列化器可能是什么问题 training tes
使用 UDF 添加文件读取添加到 Hive 资源的文件

我想知道如何读取使用添加的 Hive 资源ADD FILE来自乌德夫例如 Hive gt add file users temp key jks Java中的UDF可以读取这个文件吗在 Udf 中获取此文件的路径是什么谢谢大卫一旦
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
Spark 使用自定义架构读取镶木地板

我正在尝试使用自定义架构导入镶木地板格式的数据但它返回类型错误 option 缺少 1 个必需的位置参数值 ProductCustomSchema StructType StructField id sku IntegerType T
使用 selectExpr 选择其中包含特殊字符的 Spark 数据框列

我所处的场景是我的列名称Munic pio字母上有重音 My selectExpr命令因此失败有办法解决吗基本上我有类似以下的表达式 selectExpr CAST Munic pio as string as Munic pio 我真
Hive中group by后是否可以连接字符串字段

我正在评估 Hive 需要在 group by 之后进行一些字符串字段连接我找到了一个名为 concat ws 的函数但看起来我必须显式列出所有要连接的值我想知道是否可以在 Hive 中使用 concat ws 做这样的事情这是一个
如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制]

这个问题在这里已经有答案了 Florian 的示例代码 ball column keep the hall column 0 7 14 1 8 15 2 9 16 3 10 17 4 11 18

随机推荐

SSRS：仅为当前登录的用户提取报告

我需要能够根据登录人员提取报告例如在一组销售人员中如果鲍勃进入此报告并单击销售人员下拉列表我需要他只能将鲍勃视为可用的销售人员而不是其他任何人我通过使用解决了这个问题 User UserIDSSRS 中的函数并且运行良好我
如何在 Acrobat Javascript 中编写文本文件

我正在使用 acrobat XI 我尝试过输出这样的文本文件 var cMyC abc var doc this createDataObject cName test txt cValue cMyC this exportDataObje
在 Ruby 中初始化类对象变量

例如我创建了一个类 class Result min 0 max 0 def initialize min max max min min max max max end end result Result new 1 10 result
配置 LDAP 时出现 Berkeley DB 不匹配错误

我正在配置 OPENLDAP 2 4 35 在 Redhat Linux 上我已经安装了 Berkley DB 4 8 30 作为先决条件我还检查了 OPENLDAP 的 README 文件中的版本兼容性其中显示 SLAPD BDB
在postgresql中将两个select语句添加到一个insert into语句中

我通过以下方式制作了一个临时表 create temporary table return table p1 BIGINT p2 VARCHAR 45 p3 VARCHAR 45 p4 VARCHAR 45 p5 VARCHAR 45 p6
确定插入符何时到达输入框的末尾

我已经发现这个问题 https stackoverflow com questions 263743 how to get cursor position in textarea它提供了一种计算文本或输入框中插入符号的确切位置的解决方案就
如何在 Google colab 中循环播放音频

我试图在 google colab 中循环运行音频但它没有给 mi 任何输出 from gtts import gTTS from IPython display import Audio for voice in Aniket sach
在 VR 中单击 inputField 时打开键盘（Oculus Quest 2 和 XRIT）

我目前正在使用 Unity 为 oculus quest 2 开发一个小型应用程序我创建了一个画布在其中添加了一个按钮和一个输入字段通过使用 XR 交互工具包我可以使用两个控制器单击按钮或输入字段但是仍然无法在输入字段中输入任何
如何在 Android 中使用双三次插值在画布上绘制和缩放位图？

我想在画布上绘制比实际尺寸更大的位图我可以使用 canvas drawBitmap bitmap null destRect null 但是如果源图像比目标矩形小得多那么质量就会很差因为结果会像素化如何使用双线性或双三次重采样绘制
基于其他规则应用 CSS 规则 - RTL 特定样式

推介会我正在尝试建立一个可用于多种文化具有不同阅读方向的网站为此我只需添加dir rtl 我的根 HTML 元素上的属性我的问题是我有一些特定于一个方向或另一个方向的 CSS 规则大多数情况下是边距或填充尝试使用属性选择器失
编码 - codePointCount 和 length 之间的结果不同

我发现了一个棘手的地方但找不到任何答案为什么会发生这种情况主要问题是字符串有多长它是否包含一个或两个字符 Code public class App public static void main String args throws
如何在 Travis CI 中使用 python-openbabel？

我使用 Travis CI 作为毒理学绘图项目的一部分对于这个项目我需要 python openbabel 作为依赖项因此我已将 apt get 安装程序添加到 travis yml 文件中如下所示已删除注释 language
在matlab中计算闭合曲线（或多边形）的曲率

考虑以下几点 x 1 34 0 92 0 68 0 25 0 06 0 34 0 49 0 72 0 79 0 94 1 35 0 35 0 54 0 68 0 84 1 20 1 23 1 32 1 34 y 0 30 0 43 0 90
如何快速混合 RGBA 无符号字节颜色？

我正在使用 c 我想使用以下代码进行 alpha 混合 define CLAMPTOBYTE color if color 255 color BYTE color gt gt 31 else color BYTE color define
创建DIBection失败

BITMAPINFO bmi memset bmi 0 sizeof BITMAPINFO bmi bmiHeader biSize sizeof BITMAPINFOHEADER bmi bmiHeader biWidth m pImg
NOT EXISTS 和 COUNT(*) 之间的区别

我在两个我认为等效的语句之间得到了不同的响应 SELECT COUNT vs NOT EXISTS 在大约 50 次执行中的 49 次中这两个语句的行为相同但有时却不然我的猜测是这些语句处理锁定页面或处理更遥远的事情的方式之间存
将到期日期格式化为 mm/yy 格式

您好我正在编写一个编辑文本其中我想要 MM YY 格式的信用卡到期日期我要实现的算法如下如果用户输入 2 到 9 之间的任何内容我将文本输入更改为 02 到 09 如果用户输入 1 那么我等待下一个数字并检查 int 值月份是否小
执行期间检测下溢

有没有办法在执行过程中自动检测下溢具体来说我认为应该有一个编译器选项来生成代码在可能导致下溢和类似错误的数学运算之后立即检查它们我说的是 G 编译器 C99 C 11 具有浮点控制函数例如fetestexcept 和定义的标志包
有人可以发布一个 Swift 中 MVC 模式的好例子吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案一个实现了MVC模式的简单项目到目前为止我对它的情况有一个简单的了解但我想看看实际的实现这是
从 Hive 表读取数据创建的 Spark DataFrame 的分区数

我对 Spark 数据帧分区数量有疑问如果我有 Hive 表员工其中包含列姓名年龄 ID 位置 CREATE TABLE employee name String age String id Int PARTITIONED BY

从 Hive 表读取数据创建的 Spark DataFrame 的分区数

从 Hive 表读取数据创建的 Spark DataFrame 的分区数 的相关文章

随机推荐

热门标签

从 Hive 表读取数据创建的 Spark DataFrame 的分区数的相关文章