在 Ubuntu 上运行 pyspark.mllib

2024-01-04

我正在尝试在 python 中链接 Spark。下面的代码是test.py,我把它放在下面~/spark/python:

from pyspark import SparkContext, SparkConf
from pyspark.mllib.fpm import FPGrowth
conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)
data = sc.textFile("data/mllib/sample_fpgrowth.txt")
transactions = data.map(lambda line: line.strip().split(' '))
model = FPGrowth.train(transactions, minSupport=0.2, numPartitions=10)
result = model.freqItemsets().collect()
for fi in result:
    print(fi)

我跑python test.py收到此错误消息:

Exception in thread "main" java.lang.IllegalStateException: Library directory '/home/user/spark/lib_managed/jars' does not exist.
        at org.apache.spark.launcher.CommandBuilderUtils.checkState(CommandBuilderUtils.java:249)
        at org.apache.spark.launcher.AbstractCommandBuilder.buildClassPath(AbstractCommandBuilder.java:208)
        at org.apache.spark.launcher.AbstractCommandBuilder.buildJavaCommand(AbstractCommandBuilder.java:119)
        at org.apache.spark.launcher.SparkSubmitCommandBuilder.buildSparkSubmitCommand(SparkSubmitCommandBuilder.java:195)
        at org.apache.spark.launcher.SparkSubmitCommandBuilder.buildCommand(SparkSubmitCommandBuilder.java:121)
        at org.apache.spark.launcher.Main.main(Main.java:86)
Traceback (most recent call last):
  File "test.py", line 6, in <module>
    conf = SparkConf().setAppName(appName).setMaster(master)
  File "/home/user/spark/python/pyspark/conf.py", line 104, in __init__
    SparkContext._ensure_initialized()
  File "/home/user/spark/python/pyspark/context.py", line 245, in _ensure_initialized
    SparkContext._gateway = gateway or launch_gateway()
  File "/home/user/spark/python/pyspark/java_gateway.py", line 94, in launch_gateway
    raise Exception("Java gateway process exited before sending the driver its port number")
Exception: Java gateway process exited before sending the driver its port number

I move test.py to ~/spark,我得到:

Traceback (most recent call last):
  File "test.py", line 1, in <module>
    from pyspark import SparkContext, SparkConf
ImportError: No module named pyspark

我从官方网站克隆了 Spark 项目。 操作系统:Ubuntu Java版本:1.7.0_79 Python版本:2.7.11

谁能给我一些解决这个问题的建议?


Spark程序必须通过“Spark-submit”提交。更多信息:文档 http://spark.apache.org/docs/latest/submitting-applications.html.

你应该尝试运行:$SPARK_HOME/bin/spark-submit test.py代替python test.py.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 Ubuntu 上运行 pyspark.mllib 的相关文章

  • Aptana Python stdlib 与 virtualenv 的问题

    我最近开始开发一个项目 仅使用 vim 作为我的文本编辑器和 virtualenv 设置 我从 GitHub 在此 virtualenv 上安装了一些 API 最终 项目变得有点大了 超出了 vim 的处理能力 所以我不得不将项目移动到 I
  • Spark Workers 上缺少 SLF4J 记录器

    我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
  • NoneType 类型的对象没有 len

    def medianeven L while len L gt 2 L L 1 len L 1 return average L def medianodd L while len L gt 1 L L 1 len L 1 return L
  • 如何在欧洲使用 Cloud Dataflow 区域终端节点?

    是否可以将 Google Cloud Platform Dataflow 作业的区域更改为欧洲 我已将管道区域设置为europe west1 d但我无法更改工作本身的区域 我尝试更改管道选项中的区域 但这会导致错误 并且只有默认区域有效 p
  • 在地图类型中创建 DataFrame 分组列

    My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
  • 无法启动 Spark-Shell

    我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误 我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
  • 如何使用FeatureUnion转换PipeLine中的多个特征?

    我有一个 pandas 数据框 其中包含有关用户发送的消息的信息 对于我的模型 我感兴趣的是预测消息的缺失收件人 即给定消息的收件人 A B C 我想预测还有谁应该成为收件人的一部分 我正在使用 OneVsRestClassifier 和
  • 类型错误:“生成器”对象没有属性“__getitem__”

    我编写了一个应该返回字典的生成函数 但是当我尝试打印字段时出现以下错误 print row2 SearchDate TypeError generator object has no attribute getitem 这是我的代码 fro
  • 如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

    如何打开存储在 HDFS 中的文件 这里输入文件来自 HDFS 如果我按如下方式提供文件 我将无法打开 它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
  • Scala Sparkcollect_list() 与 array()

    有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况 但我不清楚用例来确定差异 尽管两者array https spark apache org docs latest api
  • Docker Desktop 未安装,提示 docker-ce-cli 无法安装

    在一次在线培训课程中 讲师提到他有 安装了 Docker Desktop 的 Ubuntu 虚拟机 因此 我尝试在 Windows 10 物理主机上安装相同的程序指示 https docs docker com desktop linux
  • 按年份进行透视并获取 2020 年以来的金额总和

    我有这样的数据 我想按年份旋转并仅显示 2020 年以来的总数 我该如何实现这一目标 您可以使用以下方法实现此目的PIVOT https spark apache org docs 3 2 1 api python reference ap
  • 将 Spark 添加到 Oozie 共享库

    默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库 如果我想在 Oozie 上运行 Spark 作业 最好将 Spark lib jar 添加到 Oozie 的共享库 而不是将它们复制到应用程序
  • 如何检查SparkContext是否已停止?

    如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
  • 在 python matplotlib 中用多种颜色填充多边形

    我正在使用 matplotlib 绘制多边形补丁 并希望表示每个多边形的部分以特定颜色填充 即制作一个饼图 但形状为三角形 正方形或六边形 有没有办法改变饼图的形状或表示多边形的多种填充颜色 Thanks 更新 这是我的意思的模拟 您可以创
  • 为什么我的代码不能根据字典解码加密字符串?

    我有一本字典 其中包含代表字母的键和值 例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码 并将该字符串转换为一个列表 其中每个项目都是一个单词 我需要根据字典中的项目来解决它 代码示例是 wo
  • Apache Spark 中的高效字符串匹配

    我使用 OCR 工具从屏幕截图中提取文本 每个大约 1 5 句话 然而 当手动验证提取的文本时 我注意到时不时会出现一些错误 鉴于文本 你好 我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被 替换 2 表情符号未被正确提
  • 如何使用 sys.path.append 在 Python 中导入文件?

    我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
  • 使用 PySpark 从 azure blob 存储读取 csv 文件

    我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目 要在我的集群上进行操作 请使用 Jupyter 笔记本 另外 我的数据 一个 csv 文件 存储在 Azure Blob 存
  • 在 Spark 中将多行汇总为单行和单列

    我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行 但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h

随机推荐

  • 包括 iOS8 的 WebKit 框架验证失败

    我正在使用 WebKit 框架的 WKWebView 当尝试提交到应用程序商店时 出现以下错误 Your app contains non public API usage Please review the errors correct
  • Rust 告诉“值在循环的上一次迭代中移动到这里”

    我正在实现一个解析器组合器库 derive Debug enum Parser Char char Positive Box
  • 线串之间的相似度

    我有 GPS 记录的许多轨迹 更正式地可以将其描述为许多线串 现在 某些记录的轨迹可能是同一路线的记录 但由于 GPS 系统的不准确性 事实上 记录是在不同的场合进行的 并且它们可能是以不同的速度记录的 因此它们不会完美匹配 但当人类在地图
  • Rust 中元组的求值顺序是什么?

    元组元素可能有副作用 其中一些可能依赖于其他元素 考虑这个程序 fn main let mut v vec 1 2 match v pop v pop Some z Some y gt println y z y z gt unreacha
  • 如何更改标记颜色?谷歌地图[重复]

    这个问题在这里已经有答案了 function createMarker latlng item var marker new google maps Marker position latlng map map 这部分代码 在网站上 它显示
  • 编译器为类创建的所有成员函数有哪些?这种情况经常发生吗?

    编译器为类创建的所有成员函数有哪些 这种情况经常发生吗 像析构函数 我关心的是它是否是为所有类创建的 为什么需要默认构造函数 C 98 03 如果需要的话 编译器会生成一个默认构造函数除非您声明自己的任何构造函数 编译器会生成一个copy
  • 如何在Gridview中添加标题和子标题

    Could Anyone explain How to add Header and Subheader in Gridview shown in the below picture 嗨 你可以这样做
  • ASP.NET Web API 中除 IQueryable 之外的 OData 查询和类型

    我正在构建一个返回 Atom 或 RSS feed 的 ASP NET Web API 应用程序 为此 它构建了一个System ServiceModel Syndication SyndicationFeed和一个习惯MediaTypeF
  • Favicon 在 IE11 中不工作;适用于 FF 和 Chrome

    问题 我的图标已经在 Firefox 和 Chrome 中工作了 在我的版本 Internet Explorer 11 中 我似乎无法让 d ng 图标工作 我的文件存储为 ico 并且我有一个 Firefox 的替代文件 因为您可以在其中
  • Cripy-forms Helper 不生效

    看来 FormHelper 根本就什么也没做 这是我的表格 class PerguntarForm forms Form title forms CharField label T tulo max length 200 categoria
  • 让 Python 使用我的目录中的代码(而不是 /usr/... 中的代码)

    我正在尝试使用已安装在我的 Ubuntu 系统上的Python库 我检查了该库 编辑了一些文件 并编写了一个小脚本来测试我的更改 尽管我将脚本放在与库相同的文件夹中 但 Python 似乎正在使用已安装的版本 中的版本 usr share
  • 二维数组与数组结构

    我是 C 语言新手 所以我的问题可能不符合高标准 我们可以使用 struct mat int a 10 m 10 代替 int mat 10 10 有什么不同 哪个更有效率 你将会拥有m x a y 这是比更复杂的语法m x y 但在词汇上
  • 相当于Python中R的`do.call`

    有没有相当于R的do call在Python中 do call what sum args list 1 10 1 55 do call what mean args list 1 10 1 5 5 do call Description
  • 在android中的表视图中显示数据

    我想从中获取数据database在我的安卓中table view 我应该使用循环吗 静态对此有好处吗 这可能对你有用 try JSONArray jArray new JSONArray result TableLayout tv Tabl
  • 带背景色的按钮,波纹效果仅在左上角呈现

    单击时具有背景颜色的按钮波纹效果呈现异常 左上角仅出现阴影或褪色的矩形选择区域而不是整个按钮区域 对比2017年 Xamarin 4 10 10 2 Xamarin Android SDK 8 3 3 2 已打开与此问题相关的问题更改 设置
  • 单击[关闭]后添加和删除div

    Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 Demo http jsfiddle net ramswarnak kjTBG 14 在此演示中 当我单击pop1它删除了 div 当我点击
  • 有关情节的一般问题

    Using R 我画了一个类似的阴影图this https stackoverflow com questions 15385063 easiest way to plot inequalities with hatched fill 我想
  • 在 C# 中从实体框架调用存储过程

    这是我的输出看起来像 https i stack imgur com EUHj1 png 这是我的后端 Beta DatabaseEntities db new Beta DatabaseEntities table2 tb new tab
  • 如何在 iPhone 上使用 CALayer?

    目前 我有一个 UIView 子类 可以在屏幕上 标记 单个 2px x 2px CGLayerRef 最多 160 x 240 次 目前 我通过将 UIView 在屏幕上 向上 移动 2 个像素 实际上是 UIImageView 然后绘制
  • 在 Ubuntu 上运行 pyspark.mllib

    我正在尝试在 python 中链接 Spark 下面的代码是test py 我把它放在下面 spark python from pyspark import SparkContext SparkConf from pyspark mllib