我有一个 s3 存储桶“ABC”,并且在此存储桶上启用了日志记录,日志存储在“ABC-logs”中。每天“ABC-logs”中有许多文件。现在我想逐年分离这些日志。例如:
s3://ABC-logs/year=2015
s3://ABC-logs/year=2016
s3://ABC-logs/year=2017
做这个的最好方式是什么。
我想通过 awscli 来完成此操作,但每年年底,我都必须更改存储桶日志记录文件夹。
传统的方法是通过Amazon EMR 集群.
您可以使用 Hive 创建一个指向您的外部表源数据。然后,创建另一个外部表指向您想要的位置存储数据,具有适当的参数,例如分区和文件类型。然后,从第一个表中选择数据并将其插入到目标表中。
分区数据的查询效率更高,因为如果知道查询不需要数据,则可以跳过整个文件夹。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)