我发现我的Impala swarm表现不稳定,正常情况下只需要几秒(不到10s)就可以完成一个查询,但偶尔会需要40s以上(而且这种情况会持续几分钟),当偏偏,根据配置文件,TotalRawHdfsOpenFileTime 非常高,这意味着大部分时间都花在打开 HDFS 文件上。
那么可能的原因是什么以及如何解决呢?
这是打开文件所花费的时间。如果您正在查询 HDFS,这通常意味着它花费时间从名称节点获取数据。
通过启用文件句柄缓存,我们看到许多遇到此瓶颈的生产部署得到了显着改进 -https://docs.cloudera.com/documentation/enterprise/5-15-x/topics/impala_scalability.html#scalability_file_handle_cache https://docs.cloudera.com/documentation/enterprise/5-15-x/topics/impala_scalability.html#scalability_file_handle_cache
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)