Hive 面试问题中的分区

2024-01-06

1）如果分区列没有数据，那么当你查询它时，你会得到什么错误？

2）如果某些行没有分区列，这些行将如何处理？会不会有数据丢失？

3）为什么需要对数字列进行分桶？我们也可以使用字符串列吗？流程是什么？您将根据什么选择分桶塔？

4）内表详细信息也会存储在Metastore中吗？或者只存储外部表详细信息？

5）什么类型的查询仅在映射器端运行而不是在减速器中运行，反之亦然？

简短的答案：

1.如果分区列没有数据，那么当你询问时，你会得到什么错误？

Hive 中的分区列是一个名为的文件夹key=value里面有数据文件。如果没有数据，则表示不存在分区文件夹，表为空，不显示错误，不返回数据。当您使用动态分区在分区列中插入 null 时，分区列中的所有 NULL 值（以及所有不符合字段类型的值）加载为__HIVE_DEFAULT_PARTITION__如果在这种情况下列类型是数字，则在选择期间将引发类型转换错误。例如，无法将 textWritable 转换为 IntWritable

2.如果某些行没有分区列，那么这些行将如何处理？会不会有数据丢失？

如果“没有”表示 NULL，则加载为HIVE_DEFAULT_PARTITION其实还是可以获取到数据的，没有发生丢失的情况

3.为什么需要对数字列进行分桶？- 它不需要是数字我们也可以使用字符串列吗？Yes.流程是什么？您将根据什么选择分桶塔？

应根据连接/过滤列选择用于分桶的列。值被散列、分布式和排序（集群），并且相同的散列被写入（在插入覆盖期间）相同的存储桶（文件）中。桶数和列数在表DDL中指定。

Bucketed table和bucket-map-join是有点过时的概念，您可以使用DISTRIBUTE BY + sort + ORC来实现相同的效果。这种方式比较灵活。

4.内部表详细信息也会存储在元存储中吗？或者只存储外部表详细信息？

与外部或管理无关。表 schema/grants/statistics 存储在元存储中。

5.什么类型的查询仅在映射器端运行而不是在减速器中运行，反之亦然？

没有聚合的查询、映射连接（当小表适合内存时）、简单的列转换（简单的列 UDF，如 regexp_replace、split、substr、trim、concat 等）、WHERE 中的过滤器、排序依据 - 可以在映射器上执行。

聚合和分析、常见连接、排序依据、分发依据、UDAF 在 Mapper+Reducer 上执行。

仅在映射器端运行而不是在减速器中运行，反之亦然

反之亦然是不可能的。 Mapper 用于读取数据文件，reducer 是下一个可选步骤，没有 Mapper 就无法存在，尽管在 Tez 执行引擎上运行时可以进行 map->reduce->reduce... 。 Tez 可以将复杂查询表示为单个 DAG 并作为单个作业运行，并删除 MR 引擎中使用的不必要步骤，例如将中间结果写入 hdfs 并使用映射器再次读取。即使在 MR 地图中，也可以进行仅工作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hive 面试问题中的分区的相关文章

如何在 ORC 分区 Hive 表的中间添加一列，并且仍然能够使用新结构查询旧分区文件

目前我在 Prod 中有一个分区 ORC 托管错误地创建为内部优先 Hive 表其中至少有 100 天的数据按年月日约 16GB 数据分区这个表大约有160列现在我的要求是在这个表的中间添加一列并且仍然能够查询旧数据
Hadoop 性能

我安装了hadoop 1 0 0并尝试了字数统计示例单节点集群完成时间为 2 分 48 秒然后我尝试了标准的 Linux 字数统计程序该程序在同一组 180 kB 数据上运行只需 10 毫秒是我做错了什么还是 Hadoop 非
Presto/Athena 中嵌套日期分区的比较查询

我将 parquet 数据存储在 S3 上以 Hive 理解的格式进行分区 s3
我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？

Spark 2 0 与 Hive 假设我正在尝试编写一个 Spark 数据框 irisDf to orc and将其保存到 hive 元存储在 Spark 中我会这样做 irisDf write format orc mode overw
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集
使用 UDF 添加文件读取添加到 Hive 资源的文件

我想知道如何读取使用添加的 Hive 资源ADD FILE来自乌德夫例如 Hive gt add file users temp key jks Java中的UDF可以读取这个文件吗在 Udf 中获取此文件的路径是什么谢谢大卫一旦
MongoDB：在没有并行性的情况下使用 MapReduce 有什么意义？

Quoting http www mongodb org display DOCS MapReduce MapReduce Parallelism http www mongodb org display DOCS MapReduce Ma
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
Hive中group by后是否可以连接字符串字段

我正在评估 Hive 需要在 group by 之后进行一些字符串字段连接我找到了一个名为 concat ws 的函数但看起来我必须显式列出所有要连接的值我想知道是否可以在 Hive 中使用 concat ws 做这样的事情这是一个
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
删除 hive 表中的列

我正在使用 hive 版本 0 9 我需要删除 hive 表的列我在几个 hive 命令手册中进行了搜索但我只找到了 0 14 版本的命令在 hive 0 9 版本中可以删除 hive 表的一列吗命令是什么谢谢我们不能简单地使用
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
在 HIVE 中，使用 COALESCE 将 Null 值替换为相同的列值

我想用同一列中的值替换特定列的空值我想得到结果我在下面尝试过 select d day COALESCE val LAST VALUE val TRUE OVER ORDER BY d day ROWS BETWEEN UNBOUNDED
我们可以预测 Hive SELECT * 查询结果的顺序吗？

是否有可能a的结果的顺序SELECT query no ORDER BY 如果使用相同的 DBMS 作为 Metastore 那么总是相同的吗所以只要使用MySQL作为Metastore 结果的顺序就为aSELECT 查询将始终相同如
从时间戳获取日期

我有一个像这样的日期字段 2017 03 22 11 09 55 列名称 install date 我有另一个日期字段日期如下 2017 04 20 列名称 test date 我只想从上面 2017 03 22 获取日期字段以便我可以
为 Presto 和 AWS S3 设置独立 Hive Metastore 服务

我工作的环境中使用 S3 服务作为数据湖但没有 AWS Athena 我正在尝试设置 Presto 以便能够查询 S3 中的数据并且我知道我需要通过 Hive Metastore 服务将数据结构定义为 Hive 表我正在 Docker
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m

随机推荐

angularjs无限$digest循环，当范围没有改变时

我的角度代码中出现以下错误我很难理解为什么函数 getDrawWithResults 会导致摘要循环因为似乎没有任何副作用它只是从列表中返回属性设置为 true 的项目仅当页面上第一次使用 getDrawWithResults 时才
导入 read.csv/read.xlsx 时将 NA 值插入数据框空白单元格

所附的屏幕截图显示了我刚刚从 Excel 文件导入到 R 中的数据框的一部分在空白单元格中我需要插入 NA 如何将 NA 插入任何空白单元格同时保留已填充的单元格更好的问题是我如何将其读入 R 以便丢失的单元格已经存在NAs 也许你
在 PHP 中，如何向从 iPhone InApp 收据检索到的购买日期添加 3 个月？

在我从 PHP 服务器验证 App Store 的收据后 App Store 向我发回一个 JSON 响应 status 0 receipt 收据项目之一是 purchase date 其中包含以下字符串示例 2010 02 09 19
mongoid .limit 在 mongoid 3.1.x 中不起作用

我在 Rails 中使用 mongodb 3 1 0 和最新的 3 1 3 尝试了类似的方法 limit 不起作用下面应该返回 1 行但它返回全部 4 code go Gallery limit 1 logger info count
MSTest项目无法获取本地化字符串？

我遇到了一个奇怪的问题在我的单元测试中我想检查本地化的字符串但是我似乎无法让它发挥作用例如我创建了两个资源英语的Resource1 resx和中文的Resource1 zh CN resx 单元测试项目只能获取默认英文资源
如何使用 dplyr::relocate 一步重新定位多个列？

我想使用 dplyr relocate 对某些列重新排序使其位于特定的其他列之后这是一个 MWE a lt letters 1 3 b lt letters 4 6 c lt letters 7 9 d lt letters 10 12
text-align:center 在 chrome 中有效，在 safari 中无效

我就是这样使用的 HTML h1 text h1 CSS h1 text align center In Chrome一切正常但与左侧对齐Safari 为什么在 Safari 中会发生这种情况对于野生动物园 text align web
Azure 平台：扩大和缩小实例

注意如果您熟悉 Azure 定价模型请跳至问题部分微软将开始对Azure平台的使用收费2010 年 2 月 1 日 http www microsoft com windowsazure pricing 每月的账单将取决于带宽存
在后台运行 NSTimer

我的应用程序是一个体育应用程序即使在后台游戏也应该继续我为此使用了 nstimer 但我无法在后台运行计时器每当应用程序处于后台时计时器就会停止返回时它会从离开时的同一时间继续你不能运行NSTimer在后台除非您的应用程序有权
如何更改 android google place 的自动完成活动中的占位符文本？

我在用选项 2 使用意图启动自动完成活动 https developers google com places android api autocomplete option 2 use an intent to launch the au
迁移多个领域 - 领域版本大于架构版本异常

为什么会抛出此异常当我尝试迁移多个领域时 bool ObjectStore is schema at version Group group uint64 t version uint64 t old version get schema
无法看到来自默认 Facebook 应用程序或浏览器的应用程序请求帖子

我正在将应用程序请求发布到朋友的墙上效果很好在 PC 浏览器上显示效果非常好 PC 端见下图现在虽然我将从 Android 设备上看到相同的内容但它没有显示正确的帖子我看不到描述及其下面的一些文本请参阅下图来自手机它出什么
NUnit TestContext.CurrentContext 空引用异常

今天早上我一直在使用 watiN Nunit 来捕获失败的 UI 测试的屏幕截图但是我在访问 Nunits TestContext CurrentContext 时遇到了 NRE 关于我做错了什么有什么想法吗 TestFixture c
SignalR 核心 - 状态代码：404，原因短语：“未找到”，版本：1.1

我有两个项目 First WebApi包含用于使用的集线器SignalR public class NotificationsHub Hub public async Task GetUpdateForServer string call
如何在 inkcanvas 上同时进行缩放和旋转？

使用以下 XAML
单击 UIWebView 中的按钮时打开 ViewController swift

我有一个具有 UIWebView 的应用程序并且 Webview 包含简单的Button 这是我的 WebViewController import UIKit class testViewController UIViewControl
Java - 如何解密 Chrome cookie？

我正在尝试从 Chrome 浏览器中提取 cookie 我找到了这个帖子读取和插入 Chrome Cookie Java https stackoverflow com questions 33629474 reading and inse
如何在 python 中制作网格？

这是我的代码 width int input How wide height int input How high grid row bak for i in range width row append bak for i in rang
使用 asp.net 身份在身份服务器 4 中实现角色

我正在开发一个 asp net MVC 应用程序使用身份服务器 4 作为令牌服务我也有一个 api 其中有一些安全资源我想为 api 实现角色授权我想确保只有具有有效角色的授权资源才能访问 api 端点否则会收到 401 未经授
Hive 面试问题中的分区

1 如果分区列没有数据那么当你查询它时你会得到什么错误 2 如果某些行没有分区列这些行将如何处理会不会有数据丢失 3 为什么需要对数字列进行分桶我们也可以使用字符串列吗流程是什么您将根据什么选择分桶塔 4 内表详细信息也会存储

Hive 面试问题中的分区

Hive 面试问题中的分区 的相关文章

随机推荐

热门标签

Hive 面试问题中的分区的相关文章