Hive 数据存储在哪里？

2024-02-05

我对配置单元存储数据的位置有点困惑。

它将数据存储在 HDFS 还是 RDBMS 中？ Hive Meta 存储是否使用 RDBMS 来存储 Hive 表元数据？

提前致谢！！

Hive 数据存储在其中之一Hadoop 兼容文件系统 https://cwiki.apache.org/confluence/display/HADOOP2/HCFS：S3、HDFS 或其他兼容的文件系统。

Hive 元数据像 MySQL 一样存储在 RDBMS 中，请参阅支持的关系型数据库管理系统 https://cwiki.apache.org/confluence/display/Hive/AdminManual+Metastore+3.0+Administration#AdminManualMetastore3.0Administration-SupportedRDBMSs.

可以为托管表和外部表指定 Hive 表数据在 S3 或 HDFS 中的位置。

托管表和外部表之间的区别在于DROP TABLE语句，在托管表中，将删除表并删除表的数据。而对于外部表DROP TABLE将仅删除该表，数据将保持原样，并可用于在其上创建其他表。

请参阅此处的详细信息：创建/删除/截断表 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableCreate/Drop/TruncateTable

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hive 数据存储在哪里？的相关文章

HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
在 Hadoop 中按文件中的值排序

我有一个文件其中每行包含一个字符串然后是一个空格然后是一个数字例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序然后将结果放入文件中为数字分配排名所以我的输出应该
Hive中group by后是否可以连接字符串字段

我正在评估 Hive 需要在 group by 之后进行一些字符串字段连接我找到了一个名为 concat ws 的函数但看起来我必须显式列出所有要连接的值我想知道是否可以在 Hive 中使用 concat ws 做这样的事情这是一个
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
如何使用过程填充数据库

我有大约 15 个不同的表其中填充了不同的数据和不同的实体关系我需要创建一个脚本用这些表的内容填充我的数据库脚本完成后我使用 sqlplus 在 cmd 中运行它然后使用 START文件路径我有两个不同的 sql 文件一个名
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
通过 hive 访问 maxmind 的 GeoIP-country.mmdb 数据库时出现异常

我有一个自定义 Hive UDF 来访问 MaxmindGeoIP 国家 mmdb通过 add file pqr mmdb 添加到 Hive 资源的数据库编译好的 UDF 添加为 add jar abc jar 当我运行 hive 查询时
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri
在 Hive 中获取数据的交集

我在配置单元中有以下数据 userid cityid 1 15 2 15 1 7 3 15 2 8 3 9 3 7 我只想保留具有 cityid 15 和 cityid 7 的用户 ID 在我的示例中它将是用户 ID 1 和 3 我试过
当从 HDFS 手动删除分区数据时，如何更新 Hive 中的分区元数据

自动更新Hive分区表元数据的方法是什么如果新的分区数据被添加到HDFS 不执行alter table添加分区命令然后我们可以通过执行命令 msck Repair 来同步元数据如果从HDFS中删除了大量分区数据没有执行alter t
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
如何在蜂巢中的每个组中按计数 desc 进行排序？

这是 HQL select A B count as cnt from test table group by A B order by cnt desc 示例输出如下 a1 b1 5 a2 b1 3 a1 b2 2 a2 b2 1 但我想
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功

随机推荐

向 Pandas Dataframe 中的字符串添加前导零

我有一个 pandas 数据框其中前 3 列是字符串 ID text1 text 2 0 2345656 blah blah 1 3456 blah blah 2 541304 blah blah 3 201306 hi blah 4 1
除非填写所有文本输入字段，否则禁用表单按钮

我有一个具有多个文本输入的表单我不想为每个输入添加 id 因为它们是从服务器端代码生成的字段数量可能不同等我只是希望能够禁用提交按钮直到出现是输入到每个文本输入中的文本我已经做到了这一点但仅在文本输入到一个文本输入字段之前禁用按
如何使用 boost bcp？

我有 bcp 工具它是用 boost 安装程序预先构建的我想将 boost 所需的依赖项提取到一个较小的文件中因为我希望能够在学校构建这个项目我正在尝试使用 bcp 但我不明白如何使用它尽管有以下说明 http www boost
Mongodb + Node.js：删除多个文档并返回

我使用下面的代码一次删除多个文档 db collection testcollection deleteMany id in 1 2 3 function error response 有没有办法一次性删除并返回所有已删除的文档 NOTE
使用 C# 自定义属性进行异常和审计跟踪日志记录

是否可以创建一个自定义功能来捕获由自定义属性设置的方法中发生的异常我打算做这样的事情 Logging FeatureEnum SomeFeature IntentEnum SomeIntent some comment public vo
如何构建Graceful Degradation AJAX网页？

我想用优雅降级构建网页即即使JavaScript被禁用网页也能正常工作现在我必须对 AJAX 响应的格式做出设计决策如果禁用 javascript 则对服务器的每个 HTTP 请求都会生成 HTML 作为响应浏览器将刷新并显
为什么结构对齐取决于字段类型是原始类型还是用户定义的？

In 野田时间 http nodatime orgv2 我们正在转向纳秒分辨率这意味着我们不能再使用 8 字节整数来表示我们感兴趣的整个时间范围这促使我研究 Noda Time 的许多结构体的内存使用情况这反过来又引导我发现 CL
让 NppExec 了解 Notepad++ 中当前文件的路径（对于 Python 脚本）

很长一段时间以来第一次使用 Windows 并使用了 notepad 并使用 nppexec 插件来运行 python 脚本但是我注意到 notepad 没有选择保存脚本的目录例如我将 script py 放在我的文档中但是
当在 jQueryUI 自动完成列表中选择一个项目时，如何防止输入元素更新？

我有以下 jQueryUI 自动完成功能 clientSearch autocomplete source function request response var url window apiUrl clients searchText
PostgreSQL：在 plpgsql 函数中回滚事务？

来自 MS SQL 领域的我倾向于大量使用存储过程我目前正在编写一个应用程序使用了很多 PostgreSQL plpgsql 函数我想做的是如果我在特定函数中的任何点出现异常则回滚特定函数中包含的所有插入更新我最初的印象是每个
Xamarin.Forms预览器“连接已关闭”[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案刚刚打开 Xamarin Forms 预览器它显示出现问题连接已关闭它是全新的 Visual Studio 2017 安装和空白的
方向改变后，Fragment 对 mActivity 的引用变为 null。碎片状态维护无效

我的应用程序由几个片段组成到目前为止我已经将它们的引用存储在自定义应用程序对象中但我开始认为我做错了什么当我意识到我的片段对 mActivity 的所有引用在方向更改后都变为空时我的问题就开始了因此当我在方向更改后调用 get
将文件从 Artifactory 下载到 Teamcity，而不保留其完整路径

我在用 TeamCity 企业版 2017 1 2 内部版本 46812 Artifactory 专业版 5 3 1 修订版 50046 Teamcity 已安装 Artifactory 插件版本 2 3 0 任务很简单从 Artifa
在 Chrome 中编辑粘性输入元素会导致页面滚动到顶部

我试图使用CSSposition sticky在我的一个个人项目中当我注意到内部有可编辑元素例如输入字段或文本区域时会触发页面滚动到顶部如果可能的话我真的很想消除这种行为 container height 5000px head
我如何知道哪个按钮调用了我的 javascript？

再会我有三个按钮让我们称它们为 myBtn1 myBtn2 和 myBtn3 执行基本相同的操作即在模态模式下打开 div 我有点不知道谁即哪个按钮调用了我的 javascript 有没有一种简单的方法可以知道这一点或者我是否
当外部程序使用 Process.Start() 启动我的代码时进行调试

假设我有一个 C WinForms 应用程序并且它是由外部程序启动的只需使用Process Start MyModule exe 我尝试使用以下命令来调试我的代码我的项目属性 gt Debug gt 开始行动 gt 启动外部程序设置正
不兼容的库版本：nokogiri.bundle 需要版本 8.0.0 或更高版本，但 libiconv.2.dylib 提供版本 7.0.0

为了在我的 mac 上为 Rails 项目安装 mysql 我遵循了安装自制程序并删除 mac 端口的在线建议这就是问题开始的地方 Rails 项目无法构建我得到这个 rake prereqs rake 中止 dlopen Users
提前预取奇怪的行为

我正在使用 Twitter 的 typeahead 的一个非常基本的设置我有两个不同的搜索字段因此有两个预输入初始化 JavaScript document ready function input search event typea
如何使用 JavaScript 用一个 if 检查数组中的多个元素？

我的数组中有 1 个或多个项目对于这个例子假设它们是 65 66 67 如何如果可能的话只执行一个 if 条件来检查匹配例如 var keyArray 65 66 67 if e keyCode any item in keyAr
Hive 数据存储在哪里？

我对配置单元存储数据的位置有点困惑它将数据存储在 HDFS 还是 RDBMS 中 Hive Meta 存储是否使用 RDBMS 来存储 Hive 表元数据提前致谢 Hive 数据存储在其中之一Hadoop 兼容文件系统 https cw

Hive 数据存储在哪里？

Hive 数据存储在哪里？ 的相关文章

随机推荐

热门标签

Hive 数据存储在哪里？的相关文章