我想问一下有关 AWS Redshift 上的列压缩的问题。
现在我们正在验证使用适当的 diststyle、排序键和列压缩可以提高性能。
如果我的理解是正确的,列压缩可以帮助降低IO成本。我尝试了“分析压缩表名;”。大多数 Redshift 建议使用“zstd”或“lzo”作为我们列的压缩方法。
一般来说,请问设置为 DISTKEY/SORTKEY 的列也应该像其他列一样压缩吗?
我对 Redshift 完全陌生,如有任何建议,我将不胜感激。
真诚的。
DISTKEY
可以被压缩,但是first SORTKEY
列应该是未压缩的(ENCODE raw
)。如果您有多个排序键(复合),则可以压缩其他排序键列。
另外,通常建议使用常用的筛选日期/时间戳列(如果存在)作为复合排序键中的第一个排序键列。
最后,如果您要在非常大的表之间进行联接,请尝试在两个表上使用相同的 dist 和排序键,以便 Redshift 可以使用更快的合并联接。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)