在 Windows 上安装 pyspark

2024-01-16

我可以做一个pip install pyspark在我的窗户上。当我尝试运行下面的示例脚本时，它告诉我我的SPARK_HOME未设置。

我还需要设置 SPARK_HOME 吗？我该怎么做？

我在网上提到的博客从 Spark 网站手动提取 Spark 文件，然后他们必须将 SPARK_HOME 和 PYTHONPATH 放入其中。

然而，我认为这已经被消除了pip install pyspark.

import findspark
findspark.init()

import pyspark # only run after findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

df = spark.sql('''select 'spark' as hello ''')
df.show()

对于intellij，在pyspark中安装并根据需要进行设置后，我还需要进行额外的配置吗？

2022 年，这对我有用。我的设置是 VS Code 中的 jupyter 笔记本。

Prereq:

确保JDK 1.8
Download repo zip from: https://github.com/steveloughran/winutils https://github.com/steveloughran/winutils
- 提取您选择的hadoop版本文件（我的版本：3.0.0）
- 将文件放在某个文件夹中，例如c:\blah\hadoop\bin (bin 文件夹是必需的)

#!java -version         # check your java version
!pip install pyspark

hadoopFilesPath = r"c:\blah\hadoop"
import os
os.environ["HADOOP_HOME"] = hadoopFilesPath
os.environ["hadoop.home.dir"] = hadoopFilesPath
os.environ["PATH"] = os.environ["PATH"] + f";{hadoopFilesPath}\\bin"

from pyspark.sql import SparkSession, SQLContext
spark = SparkSession.builder.master('local[*]').getOrCreate()
print(spark.version)

df = spark.read.csv("test.csv", header=True, inferSchema=True)
df.show()

df.write.parquet(r"C:\blah\data\test.parquet")

请注意，环境变量可以发挥作用。如果没有，前两个是显而易见的（错误消息的一部分），路径一个需要谷歌搜索。

python

apachespark

PySpark

在 Windows 上安装 pyspark 的相关文章

我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

MySQL A 或 B，但不能同时两者

这似乎是一个简单的查询但我似乎无法理解它或将其与堆栈溢出上的其他帖子联系起来谁能解释一下这是我到目前为止所拥有的它正在返回一个人或两个人去过的所有酒吧的记录 TBL 常见模式饮酒者 VARCHAR 50 PK 酒吧 VARCHAR
正则表达式 - 查找具有 name 属性但不具有 id 的元素

这个问题今天就出现在我身上了我正在从事一个基于 Web Struts 2 的项目其中包含大量 JSP 并且大部分input select table and a元素仅通过以下方式定义name属性无id设置例如
绕过 org.apache.hadoop.mapred.InvalidInputException：输入模式 s3n://[...] 匹配 0 个文件

这是我的一个问题已经问过 http apache spark user list 1001560 n3 nabble com Ignoring S3 0 files exception tt6101 html在 Spark 用户邮件列表中
Android：同时视频播放和录制

我正在为 Android 开发一个类似视频聊天的应用程序我可以同时在屏幕上录制和播放视频吗我可以将视频相互合成 FaceTime 风格还是必须并排放置我可以使用 MediaPlayer 和 MediaRecorder 类还是必须使用
Angular 5 - 在函数中使用时 Ng-x 微调器不显示

我不确定是否有人经历过这种情况每当我尝试在函数中使用 ngx spinner 时它都不起作用但是当我将它放入订阅的回调中时它就起作用了在 authservice 之外这没有显示微调器 login this spinner sho
Python 解释器/IronPython 解释器没有名为 clr 的模块

我正在使用 IronPython 我想创建一些窗口窗体我想创建一个带有一些按钮的 Windows 窗体并且我想在 Visual Studio 中使用 Iron Python 来执行此操作我使用的是Visual Studio 2012集
更新推送通知的实时应用程序 ID

我在 App Store 中有一个应用程序它有一个通配符应用程序 ID 我想向其添加推送通知但不能因为我们有通配符应用程序 ID 这是我得到的错误只有显式应用程序 ID 才能用于访问 Apple 推送通知服务请使用具有特定捆绑包标
用新行替换字符

Powershell ver 4 Windows 7 我想更换在文本文件中添加新行我尝试了下面的脚本 Get Content C Test test txt Replace n Set Content C Test testv2 txt
isset() 在表单上无法正常工作

我有一个用户提交的注册表单使用 isset POST 发送数据以查看是否有任何内容放入表单输入框中如果没有则将其发送到 else 然后将其发送到一个函数该函数将用户返回到注册表以完成一些缺少的表单由于某种原因它无法正常工作这是我
Mongodb-在现有集合上添加唯一索引

我正在尝试学习 Mongodb 中的索引我创建了一个数据库和一个集合如下所示 use mydb db createCollection myFirstCollection one name Helios two name Kepler
JavaFX 在场景图控件上循环

如何循环控制场景我尝试使用 getChildrenUnmodifying 但它仅返回第一级子级 public void rec Node node f node if node instanceof Parent Iterator
pytorch如何设置.requires_grad False

我想冻结我的一些模型按照官方文档 with torch no grad linear nn Linear 1 1 linear eval print linear weight requires grad 但它打印True代替False
如果发出 SIGINT 或 SIGSTP，是否会调用析构函数？

我有一个带有用户定义析构函数的类如果类最初被实例化然后在程序运行时发出 SIGINT 在 unix 中使用 CTRL C 析构函数会被调用吗 SIGSTP unix 中的 CTRL Z 的行为是什么不会默认情况下大多数信号都会导致
分离 __iter__ 和 __next__ 方法

在Python 3中通过定义一个类同时成为可迭代器和迭代器是标准过程 iter and next 方法但我很难理解这一点以创建一个仅生成偶数的迭代器为例 class EvenNumbers def init self max self
.STACK 未在 MASM 中分配正确的大小

基于微软MASM文档 https learn microsoft com en us cpp assembler masm dot stack view vs 2019 STACK指令的用法是与 MODEL 一起使用时定义堆栈段段名称
jQuery 显示带有 More 和 Less 链接的第一个 X 元素

我试图找到一个 jQuery 解决方案在左侧导航过滤器中显示每个菜单上的前 3 个项目并带有显示更多和显示更少链接使用户能够扩展列表我已经寻找了一个解决方案但大多数展开折叠脚本完全隐藏图层而其他脚本则显示展开显示更多
Android 应用程序仅在发布 APK 时崩溃

我有一个好奇的问题我构建了一个在调试模式下运行良好的应用程序直接调试我的手机并在手机上安装了调试 APK 但如果我使用发布构建 APK 该应用程序会在某一时刻崩溃我发现应用程序在发布 APK 时崩溃但我不知道为什么以及我能做什么 p
Passenger Standalone 在触摸 restart.txt 时不会重新启动

我构建了一个小部署脚本其工作方式与 Capistrano 类似它将 Rails 应用程序检出到带时间戳的目录并设置current当一切顺利时链接到该链接问题是在触摸 tmp restart txt 时什么也没有发生我想知道这是否
匹配两个列表之间的相似元素

我是 python 新手所以如果这是一个愚蠢的问题我深表歉意我有两个清单 L1 marvel audi mercedez honda and L2 marvel comics bmw mercedez benz audi 我想提取其中
在 Windows 上安装 pyspark

我可以做一个pip install pyspark在我的窗户上当我尝试运行下面的示例脚本时它告诉我我的SPARK HOME未设置我还需要设置 SPARK HOME 吗我该怎么做我在网上提到的博客从 Spark 网站手动提取 Spa

在 Windows 上安装 pyspark

在 Windows 上安装 pyspark 的相关文章

随机推荐

热门标签