如何安装 pyspark 以在独立脚本中使用?

2024-01-05

我正在尝试将 Spark 与 Python 一起使用。我从以下位置安装了 Spark 1.0.2 for Hadoop 2 二进制发行版下载 https://spark.apache.org/downloads.html页。我可以在 Python 交互模式下运行快速入门示例,但现在我想编写一个使用 Spark 的独立 Python 脚本。这快速入门文档 https://spark.apache.org/docs/0.9.0/python-programming-guide.html#standalone-use说只导入pyspark,但这不起作用,因为它不在我的 PYTHONPATH 上。

我可以跑bin/pyspark并看到该模块安装在下面SPARK_DIR/python/pyspark。我可以手动将其添加到我的 PYTHONPATH 环境变量中,但我想知道首选的自动化方法。

最好的添加方式是什么pyspark支持独立脚本吗?我没有看到setup.pySpark 安装目录下的任何位置。如何为依赖于 Spark 的 Python 脚本创建 pip 包?


Spark-2.2.0以后使用pip install pyspark在您的计算机中安装 pyspark。

对于旧版本,请参阅以下步骤。在 bashrc 的 Python 路径中添加 Pyspark lib

export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH

也不要忘记设置 SPARK_HOME。 PySpark 依赖于 py4j Python 包。所以安装如下

pip install py4j

有关独立 PySpark 应用程序的更多详细信息,请参阅此post http://blog.prabeeshk.com/blog/2015/04/07/self-contained-pyspark-application/

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何安装 pyspark 以在独立脚本中使用? 的相关文章

  • celery任务eta已关闭,使用rabbitmq

    我使用教程中的默认设置和在 ubuntu 上运行的rabbitmq 使 Celery 任务正常进行 当我毫不延迟地安排任务时 一切都很好 但是当我给他们一个预计时间时 他们会被安排在未来 就好像我的时钟在某个地方关闭了一样 下面是一些请求任
  • 学习Python中的解析器

    我记得我读过有关解析器的内容 您只需提供一些示例行 它就知道如何解析某些文本 它只是确定两条线之间的差异 以了解可变部分是什么 我以为它是用 python 写的 但我不确定 有谁知道那是什么图书馆吗 可能你的意思是模板制作器 http co
  • caffe安装:opencv libpng16.so.16链接问题

    我正在尝试在 Ubuntu 14 04 机器上使用 python 接口编译 caffe 我已经安装了 Anaconda 和 opencvconda install opencv 我还安装了咖啡中规定的所有要求 并更改了注释块makefile
  • 创建 xyz 海拔数据的曲面图

    我正在尝试用 python 创建一座山的表面图 其中我有一些 xyz 数据 最终结果应该类似于that https i stack imgur com rKQV0 png 该文件的格式如下 616000 0 90500 0 3096 712
  • NumPy 数组与 SQLite

    我在 Python 中见过的最常见的 SQLite 接口是sqlite3 但是有什么东西可以很好地与 NumPy 数组或 rearray 配合使用吗 我的意思是 它可以识别数据类型 不需要逐行插入 并提取到 NumPy rec 数组中 有点
  • Python 中“is”运算符的语义是什么?

    如何is运算符确定两个对象是否相同 它是如何工作的 我找不到它的记录 来自文档 http docs python org reference datamodel html 每个对象都有一个身份 一个类型 和一个值 对象的身份 一旦发生就永远
  • argparse 不检查位置参数

    我正在创建一个脚本 它使用 argparse 接受位置参数和可选参数 我已经阅读了 Doug 的教程和 python 文档 但找不到答案 parser argparse ArgumentParser description script t
  • 尝试校准keras模型

    我正在尝试通过 Sklearn 实现来校准我的 CNN 模型CalibratedClassifierCV 尝试将其包装为KerasClassifier并覆盖预测功能但没有成功 有人可以说我做错了什么吗 这是模型代码 def create m
  • 如何在 python 中使用交叉验证执行 GridSearchCV

    我正在执行超参数调整RandomForest如下使用GridSearchCV X np array df features all features y np array df gold standard labels x train x
  • ImproperlyConfigured at / 不允许空静态前缀 - Django

    我正在使用 Django 上传 显示图像 该网站部署在 Heroku 上 下列的this https coderwall com p bz0sng教程我能够成功上传图像 但是 图像并未显示在模板中 然后我了解到我的 urls py 末尾应该
  • 为什么 pip 已经是最新的了却要求我升级?

    我全新安装了 python 3 7 1 64 位 并使用最新的 pyCharm 作为我的 IDE 我在这台机器上没有安装其他 python 我去安装 numpy 并收到以下消息 venv C Users John PycharmProjec
  • 机器学习的周期性数据(例如度角 -> 179 与 -179 相差 2)

    我使用 Python 进行核密度估计 并使用高斯混合模型对多维数据样本的可能性进行排名 每一条数据都是一个角度 我不确定如何处理机器学习的角度数据的周期性 首先 我通过添加 360 来删除所有负角 因此所有负角都变成了正角 179 变成了
  • Kivy TextInput 水平和垂直对齐(文本居中)

    如何在 Kivy 的 TextInput 中水平居中文本 I have the following screen But I want to centralize my text like this 这是我的 kv 语言的一部分 BoxLa
  • Python GTK3 Treeview 向上或向下移动选择

    如何在树视图中向上或向下移动所选内容 我的想法是 我可以使用向上和向下按钮将选择向上移动一行或向下移动一行 我的 Treeview 使用 ListStore 不确定这是否重要 首先 我将使用我熟悉的 C 代码 如果您在将其翻译为 Pytho
  • 为什么我无法杀死 k8s pod 中的 python 进程?

    我试图杀死一个 python 进程 ps aux grep python root 1 12 6 2 1 2234740 1332316 Ssl 20 04 19 36 usr bin python3 batch run py root 4
  • 在Python中随机交错2个数组

    假设我有两个数组 a 1 2 3 4 b 5 6 7 8 9 我想将这两个数组交错为变量 c 注意 a 和 b 不一定具有相同的长度 但我不希望它们以确定性的方式交错 简而言之 仅仅压缩这两个数组是不够的 我不想要 c 1 5 2 6 3
  • 解析整数集的字符串并列出间隔

    I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想 直接的答案是No 不管怎样 谢谢你的 片段 使用一个 建议者斯文 马尔纳克 s 2
  • 为什么我会在 Python 字符串格式中使用除 %r 之外的其他内容?

    我偶尔会使用 Python 字符串格式 这可以像这样完成 print int i Float f String s 54 34 434 some text 但是 这也可以这样做 print int r Float r String r 54
  • 为数据集生成随机 JSON 结构排列

    我想生成 JSON 结构的许多不同排列作为同一数据集的表示 最好不需要对实现进行硬编码 例如 给定以下 JSON name smith occupation agent enemy humanity nemesis neo 应该产生许多不同
  • 如何创建简单的梯度下降算法

    我正在研究简单的机器学习算法 从简单的梯度下降开始 但在尝试用 python 实现它时遇到了一些麻烦 这是我试图重现的示例 我获得了有关房屋的数据 居住面积 以英尺为单位 和卧室数量 以及最终的价格 居住面积 英尺2 2104 卧室 3 价

随机推荐

  • javascript 或 css 中的圆角文本区域框

    谁能建议我用 javascript 或 css 制作圆角文本区域框 执行此操作的 经典 方法是在文本区域周围的 div 上使用背景图像 并将文本区域的边框 轮廓设置为无 如下所示 div style background image url
  • 从推文中过滤图像

    我对 tweepy 很陌生 我想知道如何追踪和存储用户在他 她的推文中发布的图像 我在教程中找到了几种获取用户推文的方法 但我找不到仅过滤图像的方法 我使用以下代码来获取用户推文 怎么可能只获取用户图像 编辑 我像上面一样编辑我的代码 au
  • 有人创建过可在 3D 显示器上运行的 3D 网站吗? [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我偶然发现了这个网站http www swell3d com http www swell3d com
  • CSS3 转换和过渡 (Webkit)

    考虑以下fiddle http jsfiddle net 6TMcS p webkit transform translate 100 0 moz transform translate 100 0 ms transform transla
  • google swiffy在同一页面多次调用runtime.js时出错

    我已经使用 google swiffy v5 2 转换了多个 swf 文件 并将在许多不同的页面上显示我的新动画 其中大多数页面我无法控制或访问 为了使动画正常工作 它需要 swiffy 的 runtime js 文件 该文件在页面上可能如
  • click() 在 jQuery 的 document.ready 中分配

    在 document ready 单击 fn 具体来说 适用于与选择器匹配的新附加元素 如果没有 我怎样才能将它分配给这个新元素 我是否必须在每次追加后写作业还是有更好的方法 您正在寻找live http docs jquery com E
  • 使用javascript将父窗口的CSS添加到子窗口

    我正在尝试生成一个弹出窗口 其中包含主窗口一小部分的可打印版本 我使用的是 Meteor 因此 HTML 和 CSS 文件都是以编程方式生成的 我想做的是使用 Javascript 读取父窗口中所有链接的 CSS 文件并将它们附加到子窗口
  • 如何查找包含给定字符串的文件的树的提交 SHA1

    情况是这样的 我在 git 存储库中丢失了一些工作 这项工作曾经提交过 但现在被埋藏在我的历史中 git log all 可能无法到达的地方 我唯一记得的是一些不同的字符串 它可以精确定位我此时工作的一部分的文件 我有一个解决方案 但它很长
  • 如何在 Ruby 中将 Base64 图像发送到 Google Cloud Vision API 标签检测?

    您好 我正在用 Ruby 构建一个程序来为网页上的图像生成 alt 属性 我正在抓取图像页面 然后将其 src 即 URL 发送到 google cloud vision 以进行标签检测和其他 Cloud Vision 方法 每张图像大约需
  • 链接服务器的 OLe DB 提供程序“SQLNCLI”无法开始分布式事务

    我试图在 SQL Server 2008 中调用存储过程并将获取的数据存储到本地临时表中 当我尝试运行它时 我收到以下错误 由于 OLe DB 提供程序 SQLNCLI 操作无法完成 链接服务器无法开始分布式事务 我的代码如下 create
  • 从文本字符串中删除网址

    这是 能做到吗 的问题之一 我有一位同事联系我 要求从数据库文本字符串中删除网址 除了以 http 开头之外 所有网址都是唯一的 我的第一反应是使用替换功能 但这可能会变得使用和维护起来非常麻烦 因此 我在论坛上询问他们对如何最好地完成这项
  • 使用 Ninject 注入实现相同接口的不同类

    我正在实现构建器设计模式来构造要在 WPF UI 上显示的不同类型的图形对象 我使用 Ninject 作为我的 IOC 容器 然而 我正在尝试找到一个优雅的可扩展解决方案 我有一个ChartDirector需要一个对象IChartBuild
  • 链接悬停会导致背景大小:覆盖;在 Chrome 中切换

    使用 CSS3 我设置了背景图像作为封面 首次在 Chrome 中加载页面并将鼠标悬停在链接上时 文本周围的背景会略有变化 但非常明显 我正在使用悬停过渡 但删除过渡后也会发生背景移动 我的猜测是 背景在悬停期间正在调整大小 但我不确定如何
  • 由于“劫持:后端错误”,管道失败

    我正在跟进斯塔克与韦恩 https github com starkandwayne concourse tutorial tree master 10 job inputs教程并遇到了问题 管道失败 hijack Backend erro
  • 用户是否可以在 Kibana 中设置自己的时区?

    我熟悉 Kibana 高级设置区域下的时区选项 但想知道是否有人找到了一种让个人用户用自己的设置覆盖此选项的方法 以供参考 https www elastic co guide en kibana current advanced opti
  • 如何比较 SQL Server 中的日期时间类型

    所以我在 SQL Server 上的数据库中有一个日期时间列 我想做这个简单的选择语句 SELECT FROM Res Where dateSubmit 6 17 2010 5 01 26 PM dateSubmit是日期时间数据类型 我的
  • Eclipse Spring Boot 构建路径包含重复条目

    我已经使用 Eclipse Luna 和 Spring Boot 有一段时间了 就在今天 当我创建一个新项目时 我收到以下构建错误 Build path contains duplicate entry org eclipse jdt la
  • Google 搜索何时开始发送 X-Frame-Options: SAMEORIGIN?

    我对我们的应用程序进行了自动化测试 其中包括在 IFrame 中显示 Google 搜索框 该测试最近开始失败 一名开发人员签入的更改破坏了其他几个测试 我开始怀疑这个改变是否破坏了这个测试 但我很想知道 截至目前 我可以看到谷歌搜索 i
  • 为什么我应该避免在 JavaFX 中使用 PropertyValueFactory?

    相关问题的许多答案 和评论 PropertyValueFactory https openjfx io javadoc 18 javafx controls javafx scene control cell PropertyValueFa
  • 如何安装 pyspark 以在独立脚本中使用?

    我正在尝试将 Spark 与 Python 一起使用 我从以下位置安装了 Spark 1 0 2 for Hadoop 2 二进制发行版下载 https spark apache org downloads html页 我可以在 Pytho