【大数据】HiveQL：索引

2023-11-01

HiveQL：索引

Hive 只有有限的索引功能。Hive 中没有普通关系型数据库中键的概念，但是还是可以对一些字段建立索引来加速某些操作的。一张表的索引数据存储在另外一张表中。这是一个相对比较新的功能，所以目前还没有提供很多的选择。

Hive 中的索引和那些关系型数据库中的一样，需要进行仔细评估才能使用。维护索引也需要额外的存储空间，同时创建索引也需要消耗计算资源。用户需要在建立索引为查询带来的好处和因此而需要付出的代价之间做出权衡。

CREATE TABLE employees (
  name STRING,
  salary FLOAT,
  subordinates ARRAY<STRING>,
  deductions MAP<STRING, FLOAT>,
  address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT> )
PARTITIONED BY (country STRING, state STRING);

我们为上述表建立一个索引。

CREATE INDEX employees_index
ON TABLE employees (country)
AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'
WITH DEFERRED REBUILD
IDXPROPERTIES ('creator' = 'me', 'created_at' = 'some_time')
IN TABLE employees_index_table
PARTITIONED BY (country, name)
COMMENT 'Employees indexed by country and name.';

如果我们完全省略掉 PARTITIONED BY 语句的话，那么索引将会包含原始表的所有分区。
AS 语句指定了索引处理器，也就是一个实现了索引接口的 JAVA 类。
并非一定要求索引处理器在一张新表中保留索引数据，但是如果需要的话，会使用到 IN TABLE 子句。
如果用户指定了 DEFERRED REBUILD，那么新索引将呈现空白状态。在任何时候都可以进行第一次索引创建，或者使用 ALTER INDEX 对索引进行重建。

显示索引

SHOW FORMATTED INDEX ON employees;

删除索引

DROP INDEX IF EXISTS employees_index ON TABLE employees;

Hive 不允许用户直接使用 DROP TABLE 语句之前删除索引表。而通常情况下，IF EXISTS 都是可选的，避免了当索引不存在时抛出错误信息。

如果被索引的表被删除了，那么其对应的索引和索引表也会被删除。同样地，如果原始表的某个分区被删除了，那么这个分区对应的分区索引也同时会被删除。

参考：《Hive 编程指南》

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【大数据】HiveQL：索引的相关文章

如何从 hive cli 运行 hive 脚本

我现在有 hive 脚本 custsales hql 我想从 hive cli 运行它 hive pract5 gt run user training hdfs location custsales hql 但它不执行请指导我知道我们
Apache Hive - 复杂数据类型映射不起作用

蜂巢版本2 1 1 问题描述集合项终止值作为映射键插入蜂巢表 CREATE TABLE profiles id int name struct
如何使用用户提供的 Hadoop 正确配置 Spark 2.4

我想使用 Spark 2 4 5 当前稳定的 Spark 版本和 Hadoop 2 10 2 x 系列中当前稳定的 Hadoop 版本此外我需要访问 HDFS Hive S3 和 Kafka http spark apache org
Hive - hive 中的逆透视功能

我有两个表如下 Table A userid code code name property id 0001 1 apple id Y1234 0031 4 mango id G4567 0008 3 grape id H1209 0001
将 Hive 表导出到 hdfs 中的 csv

我知道在 Hive 中将表保存到 csv 或其他文本文件时分隔符存在一个已知问题所以我想知道你们是否可以帮助我解决这个问题我有一个现有的表表 A 我想将其以 csv 格式保存到 hdfs 通过阅读其他回复我相信我必须首先创建一个
Presto/Athena 中嵌套日期分区的比较查询

我将 parquet 数据存储在 S3 上以 Hive 理解的格式进行分区 s3
如何在 Hive 中将字符串转换为毫秒时间戳

我有一个字符串 20141014123456789 它代表一个毫秒时间戳我需要将其转换为 Hive 中的时间戳 0 13 0 而不丢失毫秒我尝试了这个但 unix timestamp 返回一个整数所以我丢失了毫秒 from unix
如何获取hive中的数据库用户名和密码

正在编写jdbc程序来连接hive数据库我希望在连接 url 中提供用户名和密码我不知道如何使用 hive QL 获取用户名和密码有人可以帮我吗 Exception in thread main java sql SQLNonTran
Hive 表的默认分隔符是什么？

如果我们在创建表时不提及任何分隔符 hive 是否有默认分隔符创建表日志 ts bigint 行字符串按 dt 字符串国家地区字符串分区默认分隔符 001 如果创建hive表时没有设置您可以将其更改为其他分隔符例如 hive
在 IDEA 中运行 Spark on Hive 项目期间创建事务连接工厂时出错

我正在尝试为 Spark Streaming 项目设置一个开发环境该项目需要将数据写入 Hive 我有一个包含 1 个主设备 2 个从设备和 1 台开发机器的集群在 Intellij Idea 14 中编码在 Spark shell
Hive 中 Sortby 和 orderby 查询的区别

Hive sort by and order by命令用于按排序顺序获取数据例如 Sort by hive gt SELECT E EMP ID FROM Employee E SORT BY E empid Order by hive
连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
使用 python 从 hive 读取数据时的性能问题

我在 hive 中有一个表其中包含 351 837 110 MB 大小记录我正在使用 python 读取该表并写入 sql server 在此过程中从 hive 读取数据到 pandas dataframe 需要很长时间当我加载整
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
删除 hive 表中的列

我正在使用 hive 版本 0 9 我需要删除 hive 表的列我在几个 hive 命令手册中进行了搜索但我只找到了 0 14 版本的命令在 hive 0 9 版本中可以删除 hive 表的一列吗命令是什么谢谢我们不能简单地使用
通过 hive 访问 maxmind 的 GeoIP-country.mmdb 数据库时出现异常

我有一个自定义 Hive UDF 来访问 MaxmindGeoIP 国家 mmdb通过 add file pqr mmdb 添加到 Hive 资源的数据库编译好的 UDF 添加为 add jar abc jar 当我运行 hive 查询时
我们可以预测 Hive SELECT * 查询结果的顺序吗？

是否有可能a的结果的顺序SELECT query no ORDER BY 如果使用相同的 DBMS 作为 Metastore 那么总是相同的吗所以只要使用MySQL作为Metastore 结果的顺序就为aSELECT 查询将始终相同如
从时间戳获取日期

我有一个像这样的日期字段 2017 03 22 11 09 55 列名称 install date 我有另一个日期字段日期如下 2017 04 20 列名称 test date 我只想从上面 2017 03 22 获取日期字段以便我可以
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在

随机推荐

uboot中printf( )函数实现分析

1 前言这部分涉及uboot中串口的初始化参考博客 uboot中串口控制台初始化详解 2 printf 函数实现思路分析 1 uboot中的printf 函数的用法和利用C库编写C语言程序时是一样的本身uboot中printf 函
linux中的/etc/hosts.allow和/etc/hosts.deny详解

linux中的 etc hosts allow和 etc hosts deny详解当linux主机需要允许禁止某些ip地址地址段访问某些资源或服务时 etc hosts allow和 etc hosts deny就派上了用场两个文件
tcp_transmit_skb的发送时机梳理

在上文数据通过网络发送的过程中当程序调用tcp sendmsg发送数据的时候有可能当前的数据不会马上发送出去当前在哪些场景下会触发数据的发送呢检查mtu 创建一个新的路径MTU 发现段未启用路径MTU 当前路径MTU探测段的长度不
Andriod期末复习总结

一安卓项目的目录结构 AndroidManifest xml 项目清单文件设置应用名称图标等属性 libs 项目依赖的外部库 src Java源文件 bin 目标文件 Java字节码 class 资源打包文件 ap 和Dalvik虚拟
机器学习——SVM（支持向量机）与人脸识别

忆如完整项目代码详见github https github com yiru1225 转载标明出处勿白嫖 star for projects thanks 目录系列文章目录一 SVM的概念与原理 1 SVM简介 2 SVM基本流程
JS中cookie的增删改查

JS中对cookie进行增删改查以下个人总结如有错误请指出修正 cookie简单介绍 cookie是一段有大小限制的文本信息由于浏览器厂商不同各个浏览器大小不一致其伴随着用户请求和浏览器与Web服务器之间传递当用户访问站点时 W
全国省市区编码表

Excel转sql表将Excel转换成支持导入的数据格式本文用csv示例使用Navicat工具导入我们的csv文件选择对应的文件格式导入然后执行下一步然后就一直无限下一步就导入成功了哦下面附上下载链接如果有帮到你的话请点赞
./nginx: error while loading shared libraries: libcrypto.so.1.1: cannot open shared object file: No

在CentOS7下配置Nginx 但是一致都在报错报错信息为 nginx error while loading shared libraries libcrypto so 1 1 cannot open shared object fi
Unity3d 离散仿真引擎基础

Unity3d 游戏离散仿真引擎基础简答题 1 解释游戏对象 GameObjects 和资源 Assets 的区别与联系游戏对象 GameObjects 用来表示游戏中具体的角色道具和场景它们通过容纳组件 Component 来实现
Ubuntu20.04+RTX3090+CUDA11.4+CUDNN8.5.0安装与卸载

目录 CUDA CUDNN卸载 CUDA CUDNN下载与安装 CUDA CUDNN下载 CUDA CUDNN安装 CUDA CUDNN卸载 CUDA卸载有两种方式一种是执行CUDA自带的卸载脚本该脚本位于 usr local cuda
网络驱动-＞PHY驱动调试

1 Linux 系统网络协议层架构网络协议框架图网络子系统是 linux 操作系统里很重要的一部分关于这部分有很多的参考资料这里主要说明一下 phy 芯片在整个子系统里的位置从这个结构里看到 PHY 驱动的功能处于链路层以太网物
Python实现并发编程

利用python实现并发编程的方法有 1 多线程 2 多进程 3 多线程多进程面试题进程和线程的区别和联系进程操作系统分配内存的基本单位一个进程可以包含一个或多个线程线程操作系统分配CPU的基本单位并发编程 concurr
我的梦想指引前行与追寻梦想之路

在毕业季来临之际我想向即将踏入职场的各位同学们致以真诚的祝福和鼓励在这个毕业季的到来让我们满怀梦想和热情准备好迈出职场的第一步追逐成功的道路不断成长和拓展自己的辉煌人生在大学期间我有幸参与了一项关于人工智能领域的研究项目这
EF Core CodeFirst 添加表字段表述

1 通过Fluent API 来添加描述使用HasComment实现 protected override void OnModelCreating ModelBuilder modelBuilder modelBuilder Entit
html视频怎么改大小,对视频大小、比例进行修改

很多人在刚开始制作视频的时候会问怎么修改高宽比怎么做全屏视频为什么我输出的视频有黑边我们今天就来把这些问题一并解决了首先来了解问题的原因问为什么输出的视频有黑边答当剪辑的视频比例与你所选的项目比例不一致软件会自动填充黑边
【数学】三角函数及部分微积分函数图象整理

三角函数及部分微积分函数图象整理 1 三角函数 1 1 cosx secx 1 2 sinx cscx 1 3 tanx cotx 1 4 s e c
Easyx简单使用

创建窗口大小为 initgraph 640 长 480 宽 showconsole 显示控制台关闭窗口closegraph 绘图函数例画圆 radius半径 circle 无填充 fillcircle 有边框填充 solidcircl
Study Note:CSIN3 Chapter 2: C# Language Basic

I should familiar with this chapter If not I should hit the wall 2 1 A First C Program I m very glad to see the first C
launch4j

launch4j 3 5 win32 百度百科 http baike baidu com view 2254377 htm launch4j是Java应用程序的Windows本地可执行文件 exe 封装器提供了本地弹出屏幕应用程序图标
【大数据】HiveQL：索引

HiveQL 索引 Hive 只有有限的索引功能 Hive 中没有普通关系型数据库中键的概念但是还是可以对一些字段建立索引来加速某些操作的一张表的索引数据存储在另外一张表中这是一个相对比较新的功能所以目前还没有提供很多的选择 Hiv

【大数据】HiveQL：索引

HiveQL：索引

【大数据】HiveQL：索引 的相关文章

随机推荐

热门标签

【大数据】HiveQL：索引的相关文章