鉴于 AWS 与 EMR 为您提供了优化的 Spark 体验,那么:
- If I am planning to only use S3 / EMRFS for both directly reading and directly writing and not using s3DistCP,
我怀疑至少需要 1 个核心节点来解决 Spark shuffle 文件的问题,因为过去当核心节点可以通过扩展来释放时,纱线动态资源分配会丢失。
据AWS工作人员介绍:
核心节点托管 EMRFS/HDFS 守护进程。所以你至少需要1个核心
节点使用 EMRFS 与 S3 进行通信。
我自己得到了这一点,但我怀疑至少还需要 1 个核心节点来解决 Spark shuffle 文件的问题 - 由于 Spark 的 Yarn 动态资源分配 - 在过去当核心节点可以通过以下方式释放时丢失缩放。核心节点在自动扩展或初始分配后无法取消分配。
也就是说,我注意到大约 2 年前,EMR Spark 的弹性已经投入了大量精力:https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-spark-applications-using-amazon-ec2-spot-instances-with-amazon-emr/ https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-spark-applications-using-amazon-ec2-spot-instances-with-amazon-emr/
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)