我正在尝试将 Spark 与 Python 一起使用。我从以下位置安装了 Spark 1.0.2 for Hadoop 2 二进制发行版下载 https://spark.apache.org/downloads.html页。我可以在 Python 交互模式下运行快速入门示例,但现在我想编写一个使用 Spark 的独立 Python 脚本。这快速入门文档 https://spark.apache.org/docs/0.9.0/python-programming-guide.html#standalone-use说只导入pyspark
,但这不起作用,因为它不在我的 PYTHONPATH 上。
我可以跑bin/pyspark
并看到该模块安装在下面SPARK_DIR/python/pyspark
。我可以手动将其添加到我的 PYTHONPATH 环境变量中,但我想知道首选的自动化方法。
最好的添加方式是什么pyspark
支持独立脚本吗?我没有看到setup.py
Spark 安装目录下的任何位置。如何为依赖于 Spark 的 Python 脚本创建 pip 包?
Spark-2.2.0以后使用pip install pyspark
在您的计算机中安装 pyspark。
对于旧版本,请参阅以下步骤。在 bashrc 的 Python 路径中添加 Pyspark lib
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
也不要忘记设置 SPARK_HOME。
PySpark 依赖于 py4j Python 包。所以安装如下
pip install py4j
有关独立 PySpark 应用程序的更多详细信息,请参阅此post http://blog.prabeeshk.com/blog/2015/04/07/self-contained-pyspark-application/
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)