我是 PySpark 和 EMR 的新手。
我尝试通过 Jupyter Notebook 访问 EMR 集群上运行的 Spark,但遇到错误。
我使用以下代码生成 SparkSession:
spark = SparkSession.builder \
.master("local[*]")\
.appName("parallelization on Spark")\
.getOrCreate()
尝试以下方法访问远程集群,但出现错误:
spark = SparkSession.builder \
.master("spark://<remote-emr-ec2-hostname>:7077")\
.appName("parallelization on Spark")\
.getOrCreate()
Error:
Py4JJavaError: An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext.
: java.lang.NullPointerException
at org.apache.spark.SparkContext.<init>(SparkContext.scala:567)
at org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.scala:58)
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
任何解决此问题的帮助将不胜感激。
EMR 集群已为您配置 Jupyter 和 JupyterHub自 EMR 版本 5.14.0 起 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-jupyterhub.html.
最有可能的是,更容易调整这些提供的服务 https://aws.amazon.com/blogs/big-data/running-jupyter-notebook-and-jupyterhub-on-amazon-emr/除了连接本地进程与 EMR 主节点通信之外,还有一些额外的引导操作。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)