我想知道向外部表添加分区的最佳方法是什么。我在 hive 的 S3 上有一个外部表,分区为
车辆=/日期=/小时=
现在,可以在一天中的任何时间添加新车辆,并且有些车辆在一天中的几个小时或几天内没有数据。
几种可能的解决方案
- msck修复表:需要很多时间
- 通过脚本添加分区:我可能不知道新车何时创建或车辆没有哪个小时的数据
一般人们如何解决向外部表添加分区的问题
msck reapir table
是执行此操作的正确方法。如果运行速度太慢,请尝试关闭统计信息自动收集before维修表:
set hive.stats.autogather=false;
您可以在恢复分区后再次启用它。
最有可能的是你正在击中HIVE-18743 https://jira.apache.org/jira/browse/HIVE-18743或相关的错误。就我而言,这很有帮助。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)