我在 Google Colab 上安装 Spark 时遇到错误。它说
tar:spark-2.2.1-bin-hadoop2.7.tgz:无法打开:没有这样的文件或目录tar:
错误不可恢复:立即退出。
这是我的步骤
- !apt-get install openjdk-8-jdk-headless -qq > /dev/null
- !wget -qhttp://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz
- !tar xf Spark-2.2.1-bin-hadoop2.7.tgz
- !pip install -q findspark
在此输入图像描述 https://i.stack.imgur.com/JmFeN.png
该问题是由于您用于下载 Spark 的下载链接造成的:
http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz
要没有任何问题地下载 Spark,您应该从他们的存档网站下载它(https://archive.apache.org/dist/spark
).
例如,来自其存档网站的以下下载链接可以正常工作:
https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz
以下是安装和设置 java、spark 和 pyspark 的完整代码:
# innstall java
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
# install spark (change the version number if needed)
!wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz
# unzip the spark file to the current folder
!tar xf spark-3.0.0-bin-hadoop3.2.tgz
# set your spark folder to your system path environment.
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"
# install findspark using pip
!pip install -q findspark
对于 python 用户,您还应该安装pyspark
使用以下命令。
!pip install pyspark
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)