我是 SPARK 的新手,并尝试在 Windows 中使用它。我能够使用 hadoop 的预构建版本成功下载并安装 Spark 1.4.1。在以下目录中:
/my/spark/directory/bin
我可以运行 Spark-shell 和 pyspark.cmd,一切正常。我正在处理的唯一问题是我想在 Pycharm 中编码时导入 pyspark。现在我正在使用以下代码来使事情正常进行:
import sys
import os
from operator import add
os.environ['SPARK_HOME'] = "C:\spark-1.4.1-bin-hadoop2.6"
sys.path.append("C:\spark-1.4.1-bin-hadoop2.6/python")
sys.path.append("C:\spark-1.4.1-bin-hadoop2.6/python/build")
try:
from pyspark import SparkContext
from pyspark import SparkConf
except ImportError as e:
print ("Error importing Spark Modules", e)
sys.exit(1)
我想知道是否有更简单的方法可以做到这一点。我使用的是 Windows 8 - Python 3.4 和 Spark 1.4.1
这就是关于我发现的最简单的方法。我通常使用如下所示的函数来减少重复性。
def configure_spark(spark_home=None, pyspark_python=None):
spark_home = spark_home or "/path/to/default/spark/home"
os.environ['SPARK_HOME'] = spark_home
# Add the PySpark directories to the Python path:
sys.path.insert(1, os.path.join(spark_home, 'python'))
sys.path.insert(1, os.path.join(spark_home, 'python', 'pyspark'))
sys.path.insert(1, os.path.join(spark_home, 'python', 'build'))
# If PySpark isn't specified, use currently running Python binary:
pyspark_python = pyspark_python or sys.executable
os.environ['PYSPARK_PYTHON'] = pyspark_python
然后,您可以在导入 pyspark 之前调用该函数:
configure_spark('/path/to/spark/home')
from pyspark import SparkContext
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)