是否建议将数字列用作分区键?当我们对数字列分区和字符串列分区进行选择查询时,性能会有什么差异吗?
好吧,如果你查阅 Impala 官方文档,就会有所不同。
我不会详细说明,而是粘贴文档中的部分,因为我认为它说得很好:
“虽然使用 STRING 列作为分区键可能很方便,但即使这些列包含数字,为了性能和可扩展性,在实际情况下最好使用数字列作为分区键。尽管底层 HDFS 目录名称可能与无论哪种情况,如果将 YEAR、MONTH、DAY 等分区键列声明为 INT、SMALLINT 等,则分区键列的内存存储会更加紧凑,计算也会更快。”
参考:https://www.cloudera.com/documentation/enterprise/5-14-x/topics/impala_string.html https://www.cloudera.com/documentation/enterprise/5-14-x/topics/impala_string.html
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)