我创建了一个 Amazon EMR 集群,其中已包含 Spark。当我从终端运行 pyspark 时,当我通过 ssh 进入集群时,它会进入 pyspark 终端。
我使用 scp 上传了一个文件,当我尝试使用 python FileName.py 运行它时,出现导入错误:
from pyspark import SparkContext
ImportError: No module named pyspark
我该如何解决?
我将以下几行添加到~/.bashrc
对于 emr 4.3:
export SPARK_HOME=/usr/lib/spark
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.XXX-src.zip:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
Here py4j-0.XXX-src.zip
是 Spark python 库文件夹中的 py4j 文件。搜索/usr/lib/spark/python/lib/
找到确切的版本并替换XXX
与该版本号。
Run source ~/.bashrc
你应该表现得很好。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)