Hive查询语言中的主键和索引可以吗？

2023-12-11

我们正在尝试将 oracle 表迁移到 hive 并对其进行处理。目前oracle中的表有primary key,foreign key and unique key限制。

我们可以在 hive 中复制相同的内容吗？

我们正在对如何实施进行一些分析。

Hive indexing在 Hive 0.7.0 中引入（HIVE-417）并在 Hive 3.0 中删除（HIVE-18448）请阅读此 Jira 中的评论。该功能在 Hive 中完全没用。这些索引对于大数据来说太昂贵了，RIP。

从 Hive 2.1.0 开始（HIVE-13290) Hive 包括对未经验证的主键和外键约束的支持。这些约束未经验证，上游系统需要在将数据加载到 Hive 之前确保数据完整性。这些约束对于生成 ER 图和查询的工具非常有用。此外，这种未经验证的约束作为自我记录很有用。如果表有这样的约束，你可以很容易地找出什么应该是 PK。

在Oracle数据库中，Unique、PK和FK约束由索引支持，因此它们可以快速工作并且非常有用。但这不是 Hive 的工作方式和设计目的。

很正常的情况是，当您在 HDFS 中加载带有半结构化数据的非常大的文件时。在其上建立索引太昂贵，并且没有索引来检查 PK 违规只能扫描所有数据。通常，您无法在大数据中强制实施约束。上游进程可以关心数据完整性和一致性，但这并不能保证您最终不会在 Hive 中从不同源加载的某些大表中出现 PK 冲突。

一些文件存储格式，例如ORC具有内部轻量级“索引”来加速过滤并启用谓词下推（PPD），使用此类索引不会实现 PK 和 FK 约束。这是无法完成的，因为通常您可以拥有许多属于 Hive 中同一个表的此类文件，并且文件甚至可以具有不同的架构。 Hive 是为 PB 级创建的，您可以在单次运行中处理 PB 级数据，数据可以是半结构化的，文件可以具有不同的架构。 Hadoop 不支持随机写入，如果您想重建索引，这会增加更多的复杂性和成本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hive查询语言中的主键和索引可以吗？的相关文章

用C++连接oracle数据库

我正在寻找一种方法来连接到远程 Oracle 数据库并从 C 控制台应用程序中的表中读取一些数据有人可以给我一些提示吗谢谢 soci http soci sourceforge net http soci sourceforge net
如何使用 Hibernate Session.doWork(...) 进行保存点/嵌套事务？

我正在使用 JavaEE JPA 托管事务与 Oracle DB 和 Hibernate 并且需要实现某种嵌套事务据我所知此类事情不受开箱即用的支持但我应该能够为此目的使用保存点正如建议的https stackoverflow co
在 HIVE 中，使用 COALESCE 将 Null 值替换为相同的列值

我想用同一列中的值替换特定列的空值我想得到结果我在下面尝试过 select d day COALESCE val LAST VALUE val TRUE OVER ORDER BY d day ROWS BETWEEN UNBOUNDED
如何在可能为空值的字段上创建唯一索引（Oracle 11g）？

这是包含 3 列的示例表 ID UNIQUE VALUE UNIQUE GROUP ID 我希望可以允许以下记录 1 NULL NULL 2 NULL NULL or 3 NULL 7 4 123 7 or 注意此条件不允许unique
Elasticsearch 关于“空索引”的查询

在我的应用程序中我使用了几个elasticsearch索引它们在初始状态下不包含索引文档我认为这可以称为空该文档的映射是正确且有效的该应用程序还有一个包含实体的关系数据库这些实体可能具有在 elasticsearch 中关联的
从时间戳获取日期

我有一个像这样的日期字段 2017 03 22 11 09 55 列名称 install date 我有另一个日期字段日期如下 2017 04 20 列名称 test date 我只想从上面 2017 03 22 获取日期字段以便我可以
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
SQL Server 不使用索引将日期时间与非空进行比较

我有一个与其他任何表都不相关的简单表它有一个非 PK 列它是一个日期我已经为该列创建了一个非聚集索引如果我提出这个查询 select from table where datecolumn is not null 但如果我删除 no
ORACLE：未找到数据——但数据存在

调试包过程当实际上有数据时却找不到数据仅测试 SELECT SELECT trim trailing from GL SECURITY as DUMMY FROM b2k user b2k WHERE sms username FUCH
mysql LIKE 查询时间太长

SQL SELECT COUNT usr id as total results FROM users as usr LEFT JOIN profile as prof ON prof uid usr uid WHERE usr usern
如何在Oracle中从表中选择列，*？

我正在创建很多脚本有时为了检查表是否根据我的需要进行更新我会即时编写几个 SELECT 语句在 SQL SERVER 中你可以这样写 SELECT Column1 FROM MY TABLE 出于可见性原因这很有用但是这似乎在 O
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
为什么我的 postgis 不在几何字段上使用索引？

Windows 上的 postgresql 9 5 postgis 2 2 我首先创建一个表 CREATE TABLE points id SERIAL ad CHAR 40 name VARCHAR 200 然后添加一个几何字段 geo
如何在蜂巢中的每个组中按计数 desc 进行排序？

这是 HQL select A B count as cnt from test table group by A B order by cnt desc 示例输出如下 a1 b1 5 a2 b1 3 a1 b2 2 a2 b2 1 但我想
Oracle 按月滚动或运行总计

目标每个月末所有报表的滚动运行总计 Code select TRUNC ACTHX STMT HX STMT DATE MM AS MNTH COUNT ACTHX INVOICE as STMTS from ACTHX group b
numpy：如何连接数组？（获得多个范围的并集）

我使用Pythonnumpy 我有一个 numpy 索引数组a gt gt gt a array 5 7 12 18 20 29 gt gt gt type a
如何使用 Hibernate (EntityManager) 或 JPA 调用 Oracle 函数或过程

我有一个返回 sys refcursor 的 Oracle 函数当我使用 Hibernate 调用该函数时出现以下异常 Hibernate call my function org hibernate exception Generic
Oracle即时客户端和Oracle客户端之间的区别

Oracle即时客户端和Oracle客户端有什么区别你能给我解释一下吗谢谢 Oracle 客户端附带一个安装程序和许多可执行文件例如 sqlplus tnsping 很完整而且很大 Oracle Instant 客户端是一个基本的轻量
为什么图的 C++ 数据结构隐藏连续的整数索引？

有向图和无向图的数据结构至关重要众所周知且广泛使用的实现例如Boost图库 http www boost org doc libs 1 56 0 libs graph doc table of contents html and Lem
Oracle：按月分区表

我的解决方案德语几个月 PARTITION BY LIST to char GEBURTSDATUM Month PARTITION p1 VALUES JANUAR PARTITION p2 VALUES Februar PARTITI

随机推荐

如何在反应中从外部/组件导入文件

我的文件夹结构如下在我的 App Js 位于组件文件夹下中我有 import variables from src EnvVariables variables json 但是我收到错误 You attempted to impor
使用量角器在 Firefox 上下载文件

我需要使用量角器在 Firefox 上下载 zip 文件单击下载链接时会弹出 Windows 对话框要求打开保存文件那么我该如何处理呢我需要将哪些参数传递给驱动程序使用 chrome 我可以做到这一点下载提示下载错误但
django.db.utils.OperationalError：无法连接到服务器：没有这样的文件或目录

我在 settings py 中的数据库设置如下 DATABASES default ENGINE django db backends postgresql psycopg2 NAME dbname USER postgres PASSW
ANDROID PLACE_PICKER（builder.build（上下文）

基本上我正在尝试为 Android 实现 PLACE PICKER 但我在这里遇到了这个令人困惑的错误 int PLACE PICKER REQUEST 1 PlacePicker IntentBuilder builder new Pl
有人可以给出一个在 github 中上传发布资源的 python requests 示例吗？

url https github abc defcom api v3 repos abc def releases 401 assets name foo sh r requests post url headers Content Typ
如何仅将 SWIG 类型映射应用于特定函数？

假设我有一个函数我想为其应用特殊的类型映射因为它以 char 数组的形式返回二进制数据 const char returnBinaryData int arg1 int arg2 size t ret length 因为还有其他函数具有
InitiateSystemShutdownex 调用不起作用

我正在编写一个应用程序需要重新启动运行代码的 Windows 计算机 NET 中似乎没有 API 可以执行此操作因此我查找了 Win32 API 它被称为 InitiateSystemShutdown 外部声明如下 DllImport
默认的 chromedriver 命令超时值是多少？

http selenium googlecode com svn trunk docs api dotnet html M OpenQA Selenium Chrome ChromeDriver ctor 4 htm 有谁知道默认的 chr
如何使用word2vec？

我必须用语料库中的单词制作词汇图为此我需要使用 word2vec 编写一个程序问题是我对此很陌生我已经尝试了 4 天来找到使用 word2vec 的方法但我迷失了我的大问题是我什至不知道在哪里可以找到Java代码我听说过深度
如何删除pandas数据框中的索引名称？

In my dataframe I get a 2 written over my index column s name when I check for the columns name it doesn t show up there
为什么插入用户定义的析构函数需要用户定义的复制构造函数

以下代码编译 include
dotnet 发布错误

我使用这些资源来学习如何发布 MAUI 应用程序 https learn microsoft com en us dotnet maui ios deployment overview https github com dotnet mau
如何在 C# 中编写用户定义的异常？

大家好谁能告诉我如何在 C 中编写用户定义的异常就像在 Java 中一样我们可以用 C 编写吗你想继承自System Exception并最好提供至少相同的公共构造函数并将参数传递给基本构造函数添加您认为适合您的特定需求的相关
为什么此替换失败会产生错误？

在模板专业化中我有一个带有enable if参数的模板参数该参数导致enable if没有类型成员因此模板专业化应该失败但不会创建错误 include
如何将异步调用包装为同步行为？

目前这就是我使用 node mysql 执行查询的方式 client query sql function error result console dir result 我想同步执行此操作类似这样 var result client
C语言中如何将字符串输入到数组中？

我试图从用户那里获取输入字符串并将它们存储在一个数组中但是在我运行这段代码后程序立即崩溃了 include
在 C 中分配一维固定的二维数组

我想动态分配 2D 数组的 1 个维度给出了另一个维度这是否有效 int NCOLS 20 nrows user input double arr NCOLS arr double malloc sizeof double nrows
使用 php 输出原始 XML

我想以类似的方式输出原始 xmlhttp www google com ig api weather Mountain View但使用PHP 我的网络服务器上有一个非常简单的 php 脚本我在 Chrome firefox 中只能看到 s
TestNG @Listeners 排序问题

我的 TestNG 测试类中有多个侦听器及其使用 Listeners注释来加载侦听器我的听众相互依赖所以我需要确保listener1之前正在执行listener2总是我在定义侦听器数组时尝试给出顺序但似乎并不一致有时Listene
Hive查询语言中的主键和索引可以吗？

我们正在尝试将 oracle 表迁移到 hive 并对其进行处理目前oracle中的表有primary key foreign key and unique key限制我们可以在 hive 中复制相同的内容吗我们正在对如何实施进行一些

Hive查询语言中的主键和索引可以吗？

Hive查询语言中的主键和索引可以吗？ 的相关文章

随机推荐

热门标签

Hive查询语言中的主键和索引可以吗？的相关文章