可以说,我从文件 myFile.csv (位于 HDFS 中)创建了 Hive 外部表“myTable”。
myFile.csv 每天都会更改,那么我也有兴趣每天更新一次“myTable”。
是否有任何 HiveQL 查询告诉每天更新表?
谢谢。
P.S.
我想知道它是否与目录的工作方式相同:比方说,当“myDir”包含 10 个文件时,我从 HDFS 目录“myDir”创建 Hive 分区。第二天“myDIr”包含 20 个文件(添加了 10 个文件)。我应该更新 Hive 分区吗?
Hive 中基本上有两种类型的表。
一种是托管表,由hive仓库管理,每当创建表时数据都会被复制到内部仓库。
你can not have latest data in the query output
.
其他是 hive 中的外部表will not copy its data to internal warehouse
.
因此,每当您对表进行查询时,它就会从文件中检索数据。
因此您甚至可以在查询输出中获得最新数据。
That is one of the goals of external table.
您甚至可以删除表,数据也不会丢失。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)