Spark异常：worker中的Python版本3.4与驱动程序3.5中的版本不同

2023-12-04

我正在使用 Amazon EC2，并且我将主服务器和开发服务器合二为一。我还有另一个针对单个工人的实例。

我对此很陌生，但我已经设法使 Spark 在独立模式下工作。现在我正在尝试集群。 master 和worker 处于活动状态（我可以看到它们的webUI 并且它们正在运行）。

我有 Spark 2.0，并且安装了最新的 Anaconda 4.1.1，它附带了 Python 3.5.2。在worker和master中，如果我去pyspark并执行os.version_info，我将得到3.5.2，我还正确设置了所有环境变量（如stackoverflow和google上的其他帖子所示）（例如，PYSPARK_PYTHON）。

无论如何，任何地方都没有 3.4 版本的 python。所以我想知道如何解决这个问题。

我通过运行以下命令收到错误：

rdd = sc.parallelize([1,2,3])
rdd.count()

count() 方法发生错误：

16/08/13 18:44:31 ERROR Executor: Exception in task 1.0 in stage 2.0 (TID 17)
org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/opt/spark/python/lib/pyspark.zip/pyspark/worker.py", line 123, in main
    ("%d.%d" % sys.version_info[:2], version))
Exception: Python in worker has different version 3.4 than that in driver 3.5, PySpark cannot run with different minor versions

at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:193)
at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:234)
at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:152)
at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:63)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)
at org.apache.spark.scheduler.Task.run(Task.scala:85)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)
16/08/13 18:44:31 ERROR Executor: Exception in task 1.1 in stage 2.0 (TID 18)
org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/opt/spark/python/lib/pyspark.zip/pyspark/worker.py", line 123, in main
    ("%d.%d" % sys.version_info[:2], version))
Exception: Python in worker has different version 3.4 than that in driver 3.5, PySpark cannot run with different minor versions
at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:193)
at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:234)
at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:152)
at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:63)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)
at org.apache.spark.scheduler.Task.run(Task.scala:85)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)

由于您已经使用 Anaconda，因此您可以简单地创建一个具有所需 Python 版本的环境：

conda create --name foo python=3.4
source activate foo

python --version
## Python 3.4.5 :: Continuum Analytics, Inc

并将其用作PYSPARK_DRIVER_PYTHON:

export PYSPARK_DRIVER_PYTHON=/path/to/anaconda/envs/foo/bin/python

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

version

clustercomputing

Spark异常：worker中的Python版本3.4与驱动程序3.5中的版本不同的相关文章

如何在旧数据库中的 Django 中进行 INNER JOIN ？

抱歉我的问题可能很简单但我是 Django 的新手真的很困惑我有一个丑陋的旧表我无法更改它有 2 个表 class Salespersons models Model id models IntegerField unique
python，在数据框中存储字典

我构建了一个 pandas 数据框它在每个单元格中存储一个简单的字典例如 Sales 0 Revenue 0 我可以通过以下方式从数据帧中检索特定值 df columnA index100 Revenue 但现在我想绘制一个图表其中包
如何按总和的顺序迭代大量整数元组？

我在用着itertools combinations http docs python org 2 library itertools html itertools combinations迭代整数元组我对元组感兴趣最低总和满足一些条件
仅选择多索引 DataFrame 的一个索引

我正在尝试仅使用多索引 DataFrame 中的一个索引创建一个新的 DataFrame A B C first second bar one 0 895717 0 410835 1 413681 two 0 805244 0 813850
ModuleNotFoundError：pip install后没有名为“requests”的模块[重复]

这个问题在这里已经有答案了我知道以前曾有人问过类似的问题但我找不到问题的解决方案尝试导入请求后我收到以下错误消息 C Users Jm PycharmProjects Test venv Scripts python exe C U
ValueError：展开时包装器循环

我的示例代码中的 Python3 测试用例文档测试失败但在 Python2 中同样可以正常工作 test py class Test object def init self a 0 self a a def getattr self
为什么Python中的函数以“return 0”而不是“return”结尾？ [复制]

这个问题在这里已经有答案了您能解释一下 return 0 和 return 之间的区别吗例如 do 1 for i in xrange 5 do sth return 0 do 2 for i in xrange 5 do sth re
从 colab 中的驱动器中的 python 脚本导入 python 模块

我目前正在 Google Colab 上开展一个使用 Tensorflow API 的机器学习项目我创建了一个文件夹并将其上传到谷歌驱动器上以在谷歌Colab上运行我成功安装了谷歌驱动器并可以运行脚本但是当我尝试从同一文件夹中的脚本导
./configure 使用指定版本的 g++

如何告诉配置文件使用指定版本的 g 进行编译 Thanks 在 bash shell 中您可以执行以下操作 configure CC gcc 2 95 其他 shell 也会有类似的技术但我无法帮助您了解具体细节如果您的项目是 C
使用 imaplib 库连接到电子邮件时遇到 AUTHENTICATIONFAILED 错误

如何连接到 imaplib 库而不遇到 AUTHENTICATIONFAILE 错误通过网络浏览器登录时我的 Gmail 收件箱显示严重的安全警报登录尝试被阻止 IMAP SERVER imap gmail com USERNAME
scikit-learn 使用的 CART 算法是确定性的吗？

我从 scikit learn 网站获得以下代码 import numpy as np from sklearn datasets import load iris from sklearn model selection import c
为什么在我的例子中 For 循环比 Map、Reduce 和 List 理解更快

我编写了一个简单的脚本来测试速度这就是我发现的结果实际上 for 循环在我的例子中是最快的这真的让我感到惊讶请查看下面正在计算平方和这是因为它在内存中保存列表还是有意为之谁能解释一下这一点 from functools imp
无法在 VS Code 中导入

我是 python 新手一直在使用 VS code 现在我正在研究汤普森采样问题需要 numpy 和 matplotlib 我已经导入了这两个库但 VS code 给出了无法导入的错误我知道我必须使用 PIP 进行安装并且我已经看
如何为 PyDev 制作文件模板？

我希望在我创建的每个新文件的顶部都有一些有关许可证作者等的样板信息但我找不到要勾选的正确框基本上我想创建一个新文件并已将其填充在顶部 author Me license something copyright something
Python 类中的继承顺序

我有课ExampleSim它继承自基类Physics class Physics object arg1 arg1 def physics method print physics method class ExampleSim Physi
cython.parallel.prange 中的 cython 共享内存 - 块

我有一个函数foo它以指向内存的指针作为参数并写入和读取该内存 cdef void foo double data data some index int some value double do something dependent
Jinja2 为 Google App Engine 模型返回“None”字符串

Google App Engine 模型如下所示 from google appengine ext db import Model class M Model name db StringProperty 然后在从 Django 视图调
为什么我必须在 pybson (=bson, GitHub:py-bson) 之后安装 pymongo 才能成功导入 pybson？

编辑将问题放在网上很长时间后我注意到这是一个衍生产品无法使用 pymongo 2 2 连接到 MongoDB 2 0 5 数据库 https stackoverflow com questions 10603754 cant conne
删除 numpy 中的循环以进行简单的矩阵分配

如何删除这个简单矩阵分配中的循环以提高性能 nk ncol nrow index shape for kk in range 0 nk for ii in range 0 nrow for jj in range 0 ncol idx in
缩放插图中不同的 x 和 y 比例，matplotlib

我正在尝试使用 matplotlib 制作插图目前我有类似最后一个答案的内容如何缩放图像的一部分并插入到 matplotlib 中的同一图中 https stackoverflow com questions 13583153 how t

随机推荐

Delphi Win64 调试器加载符号有限制吗？

我正在使用 RAD Studio 10 2 3 东京 Research 相关这个问题 and 这个问题我在调试广泛使用运行时 BPL 作为插件系统的旗舰应用程序时遇到了麻烦仅当作为 Win64 应用程序进行编译和调试并使用 Delphi
在 ajax 加载的页面片段中运行脚本

我的网络应用程序动态加载其 UI 的各个部分jquery ajax 不过新的 UI 部分带有脚本我这样加载它们 Use ajax url url dataType html success function data textStatu
F# 中的通用单位

在 F 中编写泛型函数时我可以使用 LanguagePrimitives 模块中定义的成员例如在此函数中只需增加一个数字 let inline increment x a x LanguagePrimitives GenericOne
CUDA 5.0：替换 cutil.h？

我想用新的 CUDA 5 0 编译一个旧项目基于 CUDA 2 3 不幸的是它使用了旧的 cutil h 标头该标头在 CUDA 5 0 中不再可用这个标题有替代品吗特别是缺少图像导入和导出功能 PPM PGM 例如剪切保存PGM
JPanel 填充所有 JFrame 空间

我编写了这段代码来显示面板中的一组颜色 import java util ArrayList import java util List import javax swing JFrame import javax swing JPanel
PHP - RSS 生成器

我有一个旧网站每次创建新帖子时都会生成自己的 RSS 当我在 PHP 4 的服务器上时一切正常但现在主机更改为 PHP 5 我总是有一个格式错误的 XML 我使用 xml parser create 和 xml parse 和 fwr
C# 通过OleDb读取打开的Excel文件

我需要连接到open使用 NET 3 5 的 Excel 2003 文件看来我尝试使用的 OleDb 连接只需要该文件但我需要同时在 Excel 中打开这个文件 Is 非锁定读取可能的 EDIT 我通过在打开文件之前复制文件解决了这个问
Private 可见性修饰符的含义

在下面的 Tosee 类中当我调用 s hiddenInt 时 hiddenInt 是可见的但是当我在另一个类 CantSee 中创建 ToSee 对象时私有变量不可见为什么会这样呢我的印象是私有意味着在类的任何实例中客户端
NHibernate Validator 未与 Fluent NHibernate 集成

我在让 NHV 与 Fluent NHibernate 配合使用时遇到一些问题我的单元测试有一个应该验证失败的实体最终会抛出 ADO 异常我按照以下方式配置了 NHV private static void Init SessionF
Rails form_for 从不调用创建控制器操作来使用redirect_to

我正在使用 Rails 3 并且 StatusController 中有一个 form for 当我点击提交按钮时我的创建方法永远不会被调用我的创建方法有一个redirect to index 但是当我点击提交时所有信息都保留在表
如何使用列号从 MySQL 表中删除列

我正在尝试从与 Handsontable 一起使用的 MySQL 表中删除一列当我从 Handsontable 中删除一列时我可以使用以下命令获取该列的索引afterRemoveCol 打回来 afterRemoveCol functi
MySQL 上的数据库事务内的 Codeception 验收测试

使用 Codeception 为我们的 Custom 带有 Symfony 组件和 Doctrine 框架编写验收测试我们有一组实用方法由 Phpunit 测试单独使用用于创建要测试的各种实体这包括用户和其他相关数据等内容在我们的
重载方法值适用于替代方案：

我是 Spark 新手我试图为 json 数据定义一个模式并在 spark shell
如何修复此代码以创建字符串数组？

我想创建一个字符串数组这是代码 include
如何在 eclipselink 中禁用缓存

我尝试通过在 persistence xml 中使用以下属性使用 Eclipse indigo 禁用 EclipseLink 中的 L2 缓存
使用 OpenMP 并行化输出

我编写了一个必须处理大量数据的 C 应用程序使用 OpenMP 我很好地并行化了处理阶段但令人尴尬的是我发现输出写入现在是瓶颈我决定使用一个parallel for那里也是如此因为我输出项目的顺序是无关紧要的它们只需要作为连贯的
OpenCV 创建后更改关键点或描述符参数

在最新版本中 OpenCV 允许使用 create 函数轻松创建关键点检测器描述符或匹配器例如 cv Ptr
Unix和Linux中的“dot”和“dot dot”文件是真实文件吗？

做特殊文件 and 实际上存在并作为普通文件存储位于文件系统中或者仅在文件系统处理程序访问时才解释创建它们当前目录父目录我的假设是它们不存在否则当您创建符号链接或绑定安装时事情就会崩溃我认为目前接受的答案并不正确或者至
以编程方式添加代码模板？

我正在为我们的项目编写一个自定义 XML 编辑器并希望添加对模板的支持即当用户写
Spark异常：worker中的Python版本3.4与驱动程序3.5中的版本不同

我正在使用 Amazon EC2 并且我将主服务器和开发服务器合二为一我还有另一个针对单个工人的实例我对此很陌生但我已经设法使 Spark 在独立模式下工作现在我正在尝试集群 master 和worker 处于活动状态我可以看到它

Spark异常：worker中的Python版本3.4与驱动程序3.5中的版本不同

Spark异常：worker中的Python版本3.4与驱动程序3.5中的版本不同 的相关文章

随机推荐

热门标签

Spark异常：worker中的Python版本3.4与驱动程序3.5中的版本不同的相关文章