Spark - AWS EMR 集群首选哪种实例类型? [关闭]

2024-01-28

我正在 EMR Spark 集群上运行一些机器学习算法。我很好奇使用哪种实例才能获得最佳的成本/性能增益?

对于同等价格,我可以选择:

          vCPU  ECU  Memory(GiB)
m3.xlarge  4     13     15     
c4.xlarge  4     16      7.5
r3.xlarge  4     13     30.5

EMR Spark集群应该使用哪种实例?


一般来说,这取决于您的用例、需求等……但考虑到您共享的信息,我可以建议最低配置。

您似乎正在尝试训练ALS因式分解或SVD在 2 ~ 4 GB 数据之间的矩阵上。所以实际上这并不是太多的数据。

您将需要至少 1 个主节点和 2 个节点来设置和配置小型分布式集群。主人不会做任何计算,所以它不需要太多资源,但当然我会处理任务调度等。

您可以根据需要添加从属(实例)。

  • 1 x 主控:m3.xlargem5.xlarge- vCPU:4,RAM:16 GB,带 EBS 存储。
  • 2 x 奴隶:c3.4xlargec5.xlarge- vCPU:16,RAM:32 GB,带 EBS 存储。

EDIT :正如评论中提到的,第五代实例现在适用于此线程中提到的每种实例类型:R5、M5 和 C5。一般来说,最新一代实例类型比旧实例类型更便宜且性能更高。

C3、C4 和 C5 是计算优化与 R3、R4 或 R5 相比,EC2 中具有高性能处理器和最低价格/计算性能的实例,尽管推荐的用例是分布式内存缓存和内存中分析。但 C5 将以更低的价格为您完成这项工作。

性能优化:

  • Amazon EMR 按小时递增收费。这意味着一旦运行集群,您就需要为整个小时付费。记住这一点很重要,因为如果您支付一小时的 Amazon EMR 集群费用,那么将数据处理时间缩短几分钟可能不值得您花费时间和精力。

  • 不要忘记,添加更多节点来提高性能比花时间优化集群更便宜。

参考 :Amazon EMR 最佳实践 - Parviz Deyhim https://d0.awsstatic.com/International/fr_FR/whitepapers/aws-amazon-emr-best-practices.pdf.pdf.

EDIT :您也可以考虑启用Ganglia http://ganglia.sourceforge.net/监控集群资源:CPU、RAM、网络 I/O。这也将帮助您调整 EMR 集群。实际上,您无需进行任何配置。只需按照文档 http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-ganglia.html在创建时将其添加到您的 EMR 集群。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark - AWS EMR 集群首选哪种实例类型? [关闭] 的相关文章

随机推荐