在 Google Colab 上安装 Spark 时出错

2024-03-16

我在 Google Colab 上安装 Spark 时遇到错误。它说

tar:spark-2.2.1-bin-hadoop2.7.tgz:无法打开:没有这样的文件或目录tar: 错误不可恢复:立即退出。

这是我的步骤

  • !apt-get install openjdk-8-jdk-headless -qq > /dev/null
  • !wget -qhttp://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz
  • !tar xf Spark-2.2.1-bin-hadoop2.7.tgz
  • !pip install -q findspark

在此输入图像描述 https://i.stack.imgur.com/JmFeN.png


该问题是由于您用于下载 Spark 的下载链接造成的:

http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz

要没有任何问题地下载 Spark,您应该从他们的存档网站下载它(https://archive.apache.org/dist/spark).

例如,来自其存档网站的以下下载链接可以正常工作:

https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

以下是安装和设置 java、spark 和 pyspark 的完整代码:

# innstall java
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# install spark (change the version number if needed)
!wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

# unzip the spark file to the current folder
!tar xf spark-3.0.0-bin-hadoop3.2.tgz

# set your spark folder to your system path environment. 
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"


# install findspark using pip
!pip install -q findspark

对于 python 用户,您还应该安装pyspark使用以下命令。

!pip install pyspark

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 Google Colab 上安装 Spark 时出错 的相关文章

随机推荐