我可以做一个pip install pyspark
在我的窗户上。当我尝试运行下面的示例脚本时,它告诉我我的SPARK_HOME
未设置。
我还需要设置 SPARK_HOME 吗?我该怎么做?
我在网上提到的博客从 Spark 网站手动提取 Spark 文件,然后他们必须将 SPARK_HOME 和 PYTHONPATH 放入其中。
然而,我认为这已经被消除了pip install pyspark
.
import findspark
findspark.init()
import pyspark # only run after findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.sql('''select 'spark' as hello ''')
df.show()
对于intellij,在pyspark中安装并根据需要进行设置后,我还需要进行额外的配置吗?
2022 年,这对我有用。我的设置是 VS Code 中的 jupyter 笔记本。
Prereq:
- 确保JDK 1.8
- Download repo zip from: https://github.com/steveloughran/winutils https://github.com/steveloughran/winutils
- 提取您选择的hadoop版本文件(我的版本:3.0.0)
- 将文件放在某个文件夹中,例如c:\blah\hadoop\bin (bin 文件夹是必需的)
#!java -version # check your java version
!pip install pyspark
hadoopFilesPath = r"c:\blah\hadoop"
import os
os.environ["HADOOP_HOME"] = hadoopFilesPath
os.environ["hadoop.home.dir"] = hadoopFilesPath
os.environ["PATH"] = os.environ["PATH"] + f";{hadoopFilesPath}\\bin"
from pyspark.sql import SparkSession, SQLContext
spark = SparkSession.builder.master('local[*]').getOrCreate()
print(spark.version)
df = spark.read.csv("test.csv", header=True, inferSchema=True)
df.show()
df.write.parquet(r"C:\blah\data\test.parquet")
请注意,环境变量可以发挥作用。如果没有,前两个是显而易见的(错误消息的一部分),路径一个需要谷歌搜索。
相关错误信息:
- java.lang.RuntimeException: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME 和 hadoop.home.dir 未设置。 -看https://wiki.apache.org/hadoop/WindowsProblems https://wiki.apache.org/hadoop/WindowsProblems
- Py4JJavaError:调用 o42.parquet 时发生错误。
- java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z
- InsertIntoHadoopFsRelationCommand windows 调用 Py4JJavaError 时发生错误
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)