使用 HDFS 更改更新 Hive 外部表

2024-01-19

可以说，我从文件 myFile.csv （位于 HDFS 中）创建了 Hive 外部表“myTable”。

myFile.csv 每天都会更改，那么我也有兴趣每天更新一次“myTable”。

是否有任何 HiveQL 查询告诉每天更新表？

谢谢。

P.S.

我想知道它是否与目录的工作方式相同：比方说，当“myDir”包含 10 个文件时，我从 HDFS 目录“myDir”创建 Hive 分区。第二天“myDIr”包含 20 个文件（添加了 10 个文件）。我应该更新 Hive 分区吗？

Hive 中基本上有两种类型的表。

一种是托管表，由hive仓库管理，每当创建表时数据都会被复制到内部仓库。你can not have latest data in the query output.

其他是 hive 中的外部表will not copy its data to internal warehouse.

因此，每当您对表进行查询时，它就会从文件中检索数据。

因此您甚至可以在查询输出中获得最新数据。

That is one of the goals of external table.

您甚至可以删除表，数据也不会丢失。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

hive

Bigdata

HiveQL

使用 HDFS 更改更新 Hive 外部表的相关文章

如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
从时间戳获取日期

我有一个像这样的日期字段 2017 03 22 11 09 55 列名称 install date 我有另一个日期字段日期如下 2017 04 20 列名称 test date 我只想从上面 2017 03 22 获取日期字段以便我可以
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
为 Presto 和 AWS S3 设置独立 Hive Metastore 服务

我工作的环境中使用 S3 服务作为数据湖但没有 AWS Athena 我正在尝试设置 Presto 以便能够查询 S3 中的数据并且我知道我需要通过 Hive Metastore 服务将数据结构定义为 Hive 表我正在 Docker
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO
hive sql查找最新记录

该表是 create table test id string name string age string modified string 像这样的数据 id name age modifed 1 a 10 2011 11 11 11 1
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
2n + 1 法定人数是什么意思？

我在描述 HBase 的 Zookeeper 配置时遇到过这个问题但我对这个术语并不熟悉 N 与我的 HBase 集群中的节点数量有关系吗或者我应该在 Zookeeper 集群中使用的节点数量 2f 1是指你所需要的可靠性可用性水平
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS

随机推荐

你能给我指一个大型 Python 开源项目吗？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想看看用 Python 完成的大型 gt 40 名开发人员项目是什么样子的代码是什么样子的他们使
有没有办法优化std算法？

搜索有关标准算法性能的任何信息我发现堆栈溢出问题 https stackoverflow com questions 25622109 why is c stdmax element so slow关于之间的性能差异std max ele
C# 垃圾收集

假设我们有 public void foo someRefType test new someRefType test new someRefType 垃圾收集器对第一个堆对象做什么在新分配之前是否立即进行垃圾收集一般机制是什么垃圾收
如何在 Android Wear 上录制音频

有什么方法可以在 Android Wear 上录制音频吗我使用 AudioRecord API 它使应用程序崩溃难道我做错了什么 short audioData new short minBufferSize AudioRecord a
.NetCoreApp 和 .NetStandard.Library 有什么区别？

Net Core 1 0 几天前发布了我已经开始使用它了我创建了一个简单的解决方案其中一个项目类库 gt NetStandard Library 和第二个项目是控制台应用程序 NetCoreApp 关键是控制台应用程序引用了库但
如何使 UITextField 只有一个文本/数字并使用“下一步/完成”按钮浏览多个“UITextField”

我必须处理多个导航UITextField使用下一步完成按钮现在我必须在每个按钮中只允许一个文本数字UITextField我们怎样才能做到这一点UITextField如下图所示我最近使用了以下代码也能够实现但遇到问题当我第一次
构建失败 jenkins iOS 没有错误

我让 jenkins 工作来编译 iOS 应用程序但我的构建失败了没有错误 CodeSign Users jenkins Library Developer Xcode DerivedData XXXXX com aevqskpxrxf
我可以在 Razor 中使用 @helper 语法返回字符串吗？

我有一个 RazorHelpers cshtml 文件app code看起来像 using Molecular AdidasCoach Library GlobalConstants helper Translate string key
将工具提示与 Windows 应用程序中的 CHM 帮助集成

我们正在尝试重新设计 Windows 桌面应用程序的文档流程我们的两个要求是以 CHM 格式提供参考帮助提供有关各个控件的工具提示帮助目前我们的工具提示被硬编码到 Delphi C Builder 表单中但我理想情况下希望避免
libVLC 函数 media_player_new() 抛出分段错误

media player new 抛出分段错误 import vlc ins vlc Instance player ins media player new 这是它崩溃的地方 Thread 0 Crashed Dispatch queue
scala：为什么 1/0 是算术异常但 1.0/0.0 = Double.Infinity

在 Scala 中整数算术除以零会抛出 a 这似乎不一致java lang ArithmeticException by zero 但是浮点运算 1 0 0 0 返回Double Infinity 我知道从类型的角度来看同时拥有 Dou
默认函数参数的有效表达式

函数或成员函数中默认参数的有效表达式有哪些可能类型在对函数参数类型的变量进行赋值的上下文中任何正确的内容 Edit编译期间的默认参数根据类型正确性等进行评估但不会计算它们并且直到运行时才会进行赋值您可以将尚未定义的类的构造函数指定为
如何根据方法名称动态调用方法？ [复制]

这个问题在这里已经有答案了当方法的名称包含在字符串变量中时如何动态调用该方法例如 class MyClass def foo end def bar end end obj MyClass new str get data from
Forth 中的内存管理

所以我刚刚学习 Forth 很好奇是否有人可以帮助我了解内存管理通常是如何工作的目前我只有一些 C 堆栈与堆范例的经验据我了解可以在字典中分配也可以在堆上分配字典是否像 C 中的堆栈更快更受欢迎但与 C 不同的是它没有作用
Excel，将一个范围附加到一列中另一个范围的末尾

我的 Excel 中有两列数据我想添加结合第一列和第二列的第三列如何使用公式执行此操作以便可以在 A 列和 B 列中添加或删除数据而无需接触 C 列 Column A Column B Column C Bob Mary Bob J
是否可以使用一行将流收集到两个不同的集合？

我有以下代码为了勇敢而简化 public void search Predicate
Jenkins 使用 Git 和 Deploy Key 进行构建

我将 git 插件添加到 Jenkins 中我已经作为构建服务器上的 jenkins 用户生成了一个公钥我将此密钥作为部署密钥添加到 github 我添加了带有 jenkins 名称和电子邮件的全局 git 属性并且电子邮件与公钥末尾
在 Rails 模型中；保存到数据库时，符号会自动转换为 YAML。正确的做法是什么？

在我的模型示例游戏中有一个状态列但我通常通过使用符号来设置状态例子 self status active MATCH STATUS betting on gt Betting is on home team won gt Home t
Firefox 的 execCommand 复制异步替代方案

document execCommand copy 可以在 Promise 的解析函数中使用 Firefox 除外 Chrome Opera 甚至 Safari 等所有现代浏览器都允许最多 1 秒的异步复制我想改善用户体验并在剪贴板中计算
使用 HDFS 更改更新 Hive 外部表

可以说我从文件 myFile csv 位于 HDFS 中创建了 Hive 外部表 myTable myFile csv 每天都会更改那么我也有兴趣每天更新一次 myTable 是否有任何 HiveQL 查询告诉每天更新表谢谢 P S

使用 HDFS 更改更新 Hive 外部表

使用 HDFS 更改更新 Hive 外部表 的相关文章

随机推荐

热门标签

使用 HDFS 更改更新 Hive 外部表的相关文章