EMR 与 AWS 上的 EC2/Hadoop

2024-02-18

我知道 EC2 比 EMR 更灵活,但工作量更大。然而就成本而言,如果使用 EC2,可能需要将 EBS 卷附加到 EC2 实例,而 AWS 只是从 S3 流入数据。因此,在 AWS 计算器上计算数字,即使对于 EMR,也必须为 EC2 付费,但 EMR 变得比 EC2 便宜?我这里错了吗? 当然,带有 EBS 的 EC2 可能更快,但是值得这个成本吗?

谢谢, 马特


EMR 可以为您做很多在 EC2 上的标准 Hadoop 上找不到的事情。一些特别重要的包括

  • 将 Hadoop 日志从您的计算机复制到 S3。这对于在集群关闭后调试错误非常有用。
  • 运行多个 MapReduce、Pig 或 Hive 作业的作业流程
  • 根据您选择的硬件大小设置合理的配置默认值
  • 访问现货实例以获得更便宜的计算
  • 能够动态调整集群大小

您还会发现 EMR S3 文件系统比 Apache Hadoop 打包的标准文件系统更快、更可靠。它支持分段上传,并且流直接写入 S3,而不是先缓冲到磁盘。有关此内容的更多信息,请参阅Tip #5 http://blog.mortardata.com/post/58920122308/s3-hadoop-performance.

此外,如果您决定直接使用 EC2,我建议您的节点使用实例存储而不是 EBS。确实没有理由为 Hadoop 支付额外的 EBS 费用;您会注意到 EMR 集群也都在实例存储节点上运行。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

EMR 与 AWS 上的 EC2/Hadoop 的相关文章

随机推荐