AWS EMR 具有仅用于 S3/EMRFS 处理的任务节点和 1 个核心节点

2024-01-28

鉴于 AWS 与 EMR 为您提供了优化的 Spark 体验,那么:

  • If I am planning to only use S3 / EMRFS for both directly reading and directly writing and not using s3DistCP,
    • 为什么我需要至少 1 个核心节点?

我怀疑至少需要 1 个核心节点来解决 Spark shuffle 文件的问题,因为过去当核心节点可以通过扩展来释放时,纱线动态资源分配会丢失。


据AWS工作人员介绍:

核心节点托管 EMRFS/HDFS 守护进程。所以你至少需要1个核心 节点使用 EMRFS 与 S3 进行通信。

我自己得到了这一点,但我怀疑至少还需要 1 个核心节点来解决 Spark shuffle 文件的问题 - 由于 Spark 的 Yarn 动态资源分配 - 在过去当核心节点可以通过以下方式释放时丢失缩放。核心节点在自动扩展或初始分配后无法取消分配。

也就是说,我注意到大约 2 年前,EMR Spark 的弹性已经投入了大量精力:https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-spark-applications-using-amazon-ec2-spot-instances-with-amazon-emr/ https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-spark-applications-using-amazon-ec2-spot-instances-with-amazon-emr/

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

AWS EMR 具有仅用于 S3/EMRFS 处理的任务节点和 1 个核心节点 的相关文章

随机推荐