我已经创建了一个 Spark EMR 集群。我想在本地主机或 EMR 集群上执行作业。
假设我在本地计算机上运行 Spark-shell,如何告诉它连接到 Spark EMR 集群,确切的配置选项和/或要运行的命令是什么。
看起来其他人在这方面也失败了,最终在 EMR 上运行 Spark 驱动程序,但随后利用了例如在 EMR 上运行的 Zeppelin 或 Jupyter。
将我们自己的机器设置为连接到 EMR 核心节点的 Spark 驱动程序是理想的选择。不幸的是,这是不可能做到的,我们在尝试了多次配置更改后放弃了。驱动程序会启动,然后继续等待,尝试连接到从站,但未成功。
我们的大部分 Spark 开发都是在 pyspark 上进行的,使用 Jupyter Notebook 作为我们的 IDE。由于我们必须从主节点运行 Jupyter,因此如果集群出现故障,我们不能冒失去工作的风险。因此,我们创建了一个 EBS 卷并将其附加到主节点,并将所有工作都放在该卷上。 [...]
source https://www.trulia.com/blog/tech/aws-emr-ad-hoc-spark-development-environment/
注意:如果您沿着这条路线走下去,我会考虑使用 S3 来存储笔记本,那么您就不必管理 EBS 卷。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)