在windows和pycharm中设置SPARK-HOME路径变量

2023-12-07

我是 SPARK 的新手，并尝试在 Windows 中使用它。我能够使用 hadoop 的预构建版本成功下载并安装 Spark 1.4.1。在以下目录中：

/my/spark/directory/bin

我可以运行 Spark-shell 和 pyspark.cmd，一切正常。我正在处理的唯一问题是我想在 Pycharm 中编码时导入 pyspark。现在我正在使用以下代码来使事情正常进行：

import sys
import os
from operator import add

os.environ['SPARK_HOME'] = "C:\spark-1.4.1-bin-hadoop2.6"
sys.path.append("C:\spark-1.4.1-bin-hadoop2.6/python")
sys.path.append("C:\spark-1.4.1-bin-hadoop2.6/python/build")

try:
    from pyspark import SparkContext
    from pyspark import SparkConf

except ImportError as e:
    print ("Error importing Spark Modules", e)
    sys.exit(1)

我想知道是否有更简单的方法可以做到这一点。我使用的是 Windows 8 - Python 3.4 和 Spark 1.4.1

这就是关于我发现的最简单的方法。我通常使用如下所示的函数来减少重复性。

def configure_spark(spark_home=None, pyspark_python=None):
    spark_home = spark_home or "/path/to/default/spark/home"
    os.environ['SPARK_HOME'] = spark_home

    # Add the PySpark directories to the Python path:
    sys.path.insert(1, os.path.join(spark_home, 'python'))
    sys.path.insert(1, os.path.join(spark_home, 'python', 'pyspark'))
    sys.path.insert(1, os.path.join(spark_home, 'python', 'build'))

    # If PySpark isn't specified, use currently running Python binary:
    pyspark_python = pyspark_python or sys.executable
    os.environ['PYSPARK_PYTHON'] = pyspark_python

然后，您可以在导入 pyspark 之前调用该函数：

configure_spark('/path/to/spark/home')
from pyspark import SparkContext

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Windows

PySpark

在windows和pycharm中设置SPARK-HOME路径变量的相关文章

使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
已达到网络 BIOS 命令限制

我的 ASP Net 应用程序从另一台 Windows 服务器上的共享文件夹获取文件当请求增加时我收到以下错误 The network BIOS command limit has been reached 我已按照以下步骤操作微软 K
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

我如何“验证”轨道上的破坏

在销毁静态资源时我想在允许销毁操作继续之前保证一些事情基本上如果我注意到这样做会使数据库处于无效状态我希望能够停止销毁操作销毁操作没有验证回调那么如何验证是否应该接受销毁操作呢您可以引发一个异常然后捕获该异常 Rails
解决 Eclipse 的“在服务器上运行”部署问题

我正在接管现有的基于 Struts 的 Web 应用程序并尝试首次将其部署在我的本地计算机上我的前任告诉我在 Tomcat 服务器上通过 Eclipse 运行它我已经安装了最新的tomcat并且运行良好我从他们的 CVS 服务器上获
Javascript：从cookie中读取会话ID

对于 websocket 我必须从 cookie 中公开我的 sessionid 我搜索了一下发现我应该能够通过以下方式访问 cookie console log document cookie 不幸的是这不起作用或者更好的是 doc
LINQ 忽略重音和大小写

使用 LINQ 通过以下方式过滤元素的最简单方法是什么Where方法忽略重音和大小写到目前为止我已经能够通过调用属性上的方法来忽略大小写我认为这不是一个好主意因为它为每个元素调用相同的方法对吗这是我到目前为止得到的 var re
需要有关简单 MySQL 数据库设计的技巧

我正在尝试使用 MySQL 为游戏制作一个简单的项目数据库这是我的 3 张桌子的样子 items itemId itemName 0001 chest piece 0002 sword 0003 helmet attributes att
如何生成常规 Excel 公式作为查询结果？

我有一个大型且复杂的 Excel 查询它可以按预期工作但是我正在实现一些实时数据验证功能即不需要数据刷新并且我需要在查询结果的一列中包含常规 Excel 公式该公式将使用工作簿中的其他工作表执行实时数据比较有意独立于查询本身
在 AngularJS 服务之间共享数据

有没有办法在 AngularJS 的服务之间共享数据用例来自不同服务的数据聚合例如我想要一个从 REST 服务加载一些数据的 service1 然后另一个 service2 将来自另一个 REST API 的附加数据添加到 serv
如何在 apache htaccess 中为 angularjs 应用程序重写 url

我使用的htaccess如下 RewriteBase RewriteEngine on RewriteCond REQUEST FILENAME s OR RewriteCond REQUEST FILENAME l OR RewriteC
iOS 中是否支持本机 JSON？

iOS SDK 中是否有一个类可以从服务器解析 JSON 类似于 XML 的 NSXML 和扩展的 RSS 从 iOS5 开始原生支持 JSON 无需第三方框架这是由NSJSONSerialization 类
如何在uwp平台中将图像转换为字节数组

我需要将图像转换为字节数组以将其存储在数据库中我还需要将该数组转换回图像我做了谷歌研究但找不到解决方案因为UWP平台有些api不可用我从这些文章中找到了解决方案外乡人 says 要将图像转换为 byte 我将使用存储文件的 Ope
使用Python抓取动态内容

我想使用 Python 来抓取网页上您在寻找这些作者吗框的内容如下所示 http academic research microsoft com Search query lander 不幸的是盒子的内容是由 JavaScript
Chrome打包应用程序-从Webview下载文件

我正在努力让现有的 Ajax 风格的 Web 应用程序作为 Chrome 打包应用程序运行 Ajax 应用程序在打包应用程序内的 Web 视图中运行并且大部分运行良好 Ajax 应用程序允许用户使用标准 HTML 5 上传和拖放来上传文
在 PHP5 中创建 Singleton 设计模式

如何使用 PHP5 类创建 Singleton 类 Singleton class final class UserFactory private static inst null Prevent cloning and de serial
固定div的CSS水平居中？

menu position fixed width 800px background rgb 255 255 255 The Fallback background rgba 255 255 255 0 8 margin top 30px
安卓中的动画？

我是 android 新手我需要了解 Android 中视图和视图组的基本动画任何人都可以提供一些指导线来学习它提前致谢您可以先阅读官方指南到动画
JAIN API 和 JAIN SLEE API 之间的区别

我正在阅读有关 SIP 的内容发现有一个 java API JAIN SIP 可以开发基于 SIP 的应用程序然后我还发现有JAIN SLEE和SIP servlet 我相信 JSLEE 和 SIP Servlet 是分别部署基于 JA
SQL Server 一轮又一轮的划分

在存储过程中我有一个像这样的表达式 select some val in percents total val 100 some val 如果我使用Round像这样的函数 select some val in percents Round
新手：在函数调用上挂起浏览器

我刚刚开始学习 JavaScript 想知道为什么当我单击调用函数按钮时这个简单的代码片段会挂起我缺少什么
从 MATLAB 运行多进程应用程序

我用 VC 编写了一个多进程应用程序并尝试使用命令行参数执行它system来自 MATLAB 的命令它可以运行但只能在一个核心上运行有什么建议吗 Update 事实上它甚至没有看到第二个核心我使用了 OpenMP 并使用了omp
在windows和pycharm中设置SPARK-HOME路径变量

我是 SPARK 的新手并尝试在 Windows 中使用它我能够使用 hadoop 的预构建版本成功下载并安装 Spark 1 4 1 在以下目录中 my spark directory bin 我可以运行 Spark shell 和

在windows和pycharm中设置SPARK-HOME路径变量

在windows和pycharm中设置SPARK-HOME路径变量 的相关文章

随机推荐

热门标签

在windows和pycharm中设置SPARK-HOME路径变量的相关文章