在没有安装 Hadoop 的情况下在 Spark 上提交 .py 脚本

2023-11-30

我有以下简单的字数统计 Python 脚本。

from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)

from operator import add
f=sc.textFile("C:/Spark/spark-1.2.0/README.md")
wc=f.flatMap(lambda x: x.split(" ")).map(lambda x: (x,1)).reduceByKey(add)
print wc
wc.saveAsTextFile("wc_out.txt")

我使用以下命令行启动此脚本：

spark-submit "C:/Users/Alexis/Desktop/SparkTest.py"

我收到以下错误：

Picked up _JAVA_OPTIONS: -Djava.net.preferIPv4Stack=true
15/04/20 18:58:01 WARN Utils: Your hostname, AE-LenovoUltra resolves to a loopba
ck address: 127.0.1.2; using 192.168.1.63 instead (on interface net0)
15/04/20 18:58:01 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another
address
15/04/20 18:58:10 WARN NativeCodeLoader: Unable to load native-hadoop library fo
r your platform... using builtin-java classes where applicable
15/04/20 18:58:11 ERROR Shell: Failed to locate the winutils binary in the hadoo
p binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Ha
doop binaries.
        at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278)
        at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300)
        at org.apache.hadoop.util.Shell.<clinit>(Shell.java:293)
        at org.apache.hadoop.fs.FileUtil.chmod(FileUtil.java:867)
        at org.apache.hadoop.fs.FileUtil.chmod(FileUtil.java:853)
        at org.apache.spark.util.Utils$.fetchFile(Utils.scala:411)
        at org.apache.spark.SparkContext.addFile(SparkContext.scala:969)
        at org.apache.spark.SparkContext$$anonfun$12.apply(SparkContext.scala:28
0)
        at org.apache.spark.SparkContext$$anonfun$12.apply(SparkContext.scala:28
0)
        at scala.collection.immutable.List.foreach(List.scala:318)
        at org.apache.spark.SparkContext.<init>(SparkContext.scala:280)
        at org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.sc
ala:61)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)

        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstruct
orAccessorImpl.java:57)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingC
onstructorAccessorImpl.java:45)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
        at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:234)
        at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:379)
        at py4j.Gateway.invoke(Gateway.java:214)
        at py4j.commands.ConstructorCommand.invokeConstructor(ConstructorCommand
.java:79)
        at py4j.commands.ConstructorCommand.execute(ConstructorCommand.java:68)
        at py4j.GatewayConnection.run(GatewayConnection.java:207)
        at java.lang.Thread.run(Thread.java:745)
Traceback (most recent call last):
  File "C:/Users/Alexis/Desktop/SparkTest.py", line 3, in <module>
    sc = SparkContext(conf = conf)
  File "C:\Spark\spark-1.2.0\python\pyspark\context.py", line 105, in __init__
    conf, jsc)
  File "C:\Spark\spark-1.2.0\python\pyspark\context.py", line 153, in _do_init
    self._jsc = jsc or self._initialize_context(self._conf._jconf)
  File "C:\Spark\spark-1.2.0\python\pyspark\context.py", line 201, in _initializ
e_context
    return self._jvm.JavaSparkContext(jconf)
  File "C:\Spark\spark-1.2.0\python\lib\py4j-0.8.2.1-src.zip\py4j\java_gateway.p
y", line 701, in __call__
  File "C:\Spark\spark-1.2.0\python\lib\py4j-0.8.2.1-src.zip\py4j\protocol.py",
line 300, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling None.org.apache.spa
rk.api.java.JavaSparkContext.
: java.lang.NullPointerException
        at java.lang.ProcessBuilder.start(ProcessBuilder.java:1010)
        at org.apache.hadoop.util.Shell.runCommand(Shell.java:404)
        at org.apache.hadoop.util.Shell.run(Shell.java:379)
        at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:
589)
        at org.apache.hadoop.fs.FileUtil.chmod(FileUtil.java:873)
        at org.apache.hadoop.fs.FileUtil.chmod(FileUtil.java:853)
        at org.apache.spark.util.Utils$.fetchFile(Utils.scala:411)
        at org.apache.spark.SparkContext.addFile(SparkContext.scala:969)
        at org.apache.spark.SparkContext$$anonfun$12.apply(SparkContext.scala:28
0)
        at org.apache.spark.SparkContext$$anonfun$12.apply(SparkContext.scala:28
0)
        at scala.collection.immutable.List.foreach(List.scala:318)
        at org.apache.spark.SparkContext.<init>(SparkContext.scala:280)
        at org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.sc
ala:61)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)

        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstruct
orAccessorImpl.java:57)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingC
onstructorAccessorImpl.java:45)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
        at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:234)
        at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:379)
        at py4j.Gateway.invoke(Gateway.java:214)
        at py4j.commands.ConstructorCommand.invokeConstructor(ConstructorCommand
.java:79)
        at py4j.commands.ConstructorCommand.execute(ConstructorCommand.java:68)
        at py4j.GatewayConnection.run(GatewayConnection.java:207)
        at java.lang.Thread.run(Thread.java:745)

对于像我这样的 Spark 初学者来说，这似乎就是问题所在：“ERROR Shell: Failed to located the winutils bin in the hadoop binary path”。然而，Spark 文档明确指出，Spark 在独立模式下运行不需要安装 Hadoop。

我究竟做错了什么？

好消息是您没有做任何错误，并且您的代码将在错误得到缓解后运行。

尽管声明 Spark 将在没有 Hadoop 的情况下在 Windows 上运行，但它仍然会寻找一些 Hadoop 组件。该 bug 有一张 JIRA 票证（SPARK-2356），并且有补丁可用。从 Spark 1.3.1 开始，补丁尚未提交到主分支。

幸运的是，有一个相当简单的解决方法。

在 Spark 安装目录下为 winutils 创建一个 bin 目录。就我而言，Spark 安装在 D:\Languages\Spark 中，因此我创建了以下路径：D:\Languages\Spark\winutils\bin
从 Hortonworks 下载 winutils.exe 并将其放入第一步创建的 bin 目录中。 Win64位下载链接：http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe
创建一个指向 winutils 目录（而不是 bin 子目录）的“HADOOP_HOME”环境变量。您可以通过多种方式执行此操作：
- A。通过建立永久环境变量Control Panel -> System -> Advanced System Settings -> Advanced Tab -> Environment variables。您可以使用以下参数创建用户变量或系统变量：
  
  Variable Name=HADOOP_HOME Variable Value=D:\Languages\Spark\winutils\
- b.在命令 shell 中设置临时环境变量在执行你的脚本之前
  
  set HADOOP_HOME=d:\\Languages\\Spark\\winutils
运行您的代码。现在应该可以正常工作了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

在没有安装 Hadoop 的情况下在 Spark 上提交 .py 脚本的相关文章

如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
将嵌套字典键值转换为 pyspark 数据帧

我有一个 Pyspark 数据框如下所示我想提取 dic 列中的那些嵌套字典并将它们转换为 PySpark 数据帧像这样请让我知道如何实现这一目标 Thanks from pyspark sql import functions a
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp

随机推荐

如何根据Python中数据集的最佳拟合确定微分方程的未知参数？

我正在尝试使用 python 将不同的微分方程拟合到给定的数据集因此我分别使用 scipy 包和solve ivp 函数只要我对微分方程中包含的参数 b 0 005 有一个粗略的估计这对我来说就很好例如 import matplo
Android自定义形状

I know it is possible to make a shape looking something like this 但我不知道如何开始我可以把它做成一个形状吗或者我必须做别的事情吗 BR 哦看看那个我错了渐变不是问
多次按键无法解决左侧和空间问题？

I have a strange problem when I press up left arrows and space simultaneously Why doesn t the space work I tried to test
使用 pvfactors 库时出现“OSError: [WinError 126] 找不到指定的模块”

我开始按照网站教程使用 Python 中的 pvfactors 工具它计算光伏阵列表面上的辐照度入射 1 import numpy as np import matplotlib pyplot as plt from datetime i
如何创建 const boost::iterator_range

评论于为什么 boost find first 对它的输入采用非常量引用建议调用者使用 const iterator 模板参数创建一个非常量 iterator range 以证明迭代对象具有足够的生命周期这是什么意思以及我该怎么做
刷新后保持选项处于选中状态

我有一个按插入选择中的两个参数排序的人员列表当有人选择一个参数时如何在刷新或更改返回页面时保持该参数的选择我在互联网上的一些帖子上看到了一些问题但大多数都使用 JQuery 而我不想使用它代码是这样的
Firebase 使用 java（非 android）检索信息

我一直在尝试使用 java 代码非 android 获取 firebase 数据库的数据我使用了与在 android 应用程序中检索相同的方法但它没有获取数据 Firebase firebase new Firebase https
WPF - 通过考虑用户任务栏来最大化无边框窗口

我正在使用自定义镶边创建一个 WPF 窗口所以我设置ResizeMode NoResize and WindowStyle None 实现我自己的 chrome 然而最大化无边框窗口时存在一个问题它占据了整个屏幕我发现以下技巧可以解
日期时间和 DbNull.Value

有谁知道为什么这有效 if item Created DateTime MinValue ListSqlParam Add new SqlParameter TransactionCreated DBNull Value else List
如何替换多个匹配的正则表达式

我有一组正则表达式替换需要应用于一组字符串例如所有多个空格都带有单个空格 s 2 gt 全部后跟一个 char 后跟空格后跟字符 a zA Z gt 1 所以我会有这样的东西 String s hello how are you s
将多个文本文件导入到工作簿中，其中工作表名称与文本文件名匹配

介绍继续我之前的question最初我之前的代码在堆栈交换专家的帮助下运行良好 Problem 但下次当我再次导入文件时我必须每月导入一次它会创建重复的工作表所以我想修改我的项目如下单击导入文本文件按钮后 VBA 代码
如何为 Visual Studio 云测试的每个核心代理使用不同的 .csv？

我正在尝试使用 Visual Studio Cloud Test 执行简单的 REST API 负载测试 https www visualstudio com en us docs test performance testing gett
lambda 表达式中的赋值

我想定义一些 lambda 表达式来表示类实例属性的更新我尝试写如下 Expression
从 require.context 迁移到 import.meta.webpackContext

我正在尝试将我的 Vue PWA 迁移到 ESM 替换所有require by import 但更换require context by import meta webpackContext在编译时给我以下警告严重依赖不支持直接访问 i
在字典理解中使用 eval 时出现 NameError

我正在尝试在我的班级中编写字典 data element eval self s element for element in key 我有这个错误 data element eval self s element for element
如何在 ChangeNotifier 中使用 Futures？

我有一个sqlite我从中读取数据的数据库我还有一棵很长的小部件树所以经过一番研究后我发现provider颤振包但我不知道如何在类扩展中使用 FuturesChangeNotifier或者如何在我的小部件树中的任何位置使用它 clas
为通过参数返回的函数创建类型映射

我正在转换 C api gt Java 并且我有以下函数原型 Retrieves an individual field value from the current Line param reader pointer to Text Re
如何启用电子身份验证的弹出窗口？

我正在创建一个访问 url 的电子应用程序当导航到该 URL 时用户单击按钮并被重定向到在 Chrome 中显示此弹出窗口的 URL 如何在电子中启用显示此弹出窗口默认情况下似乎没有启用它您在图片中看到的是 Chrome 打开一个
内容的最大长度？

我正在尝试使用连接服务器HttpURLConnection 但我的 PUT 方法有问题我需要发送一个字符串1500 个字符或更多但在这种情况下服务器会产生超时并返回500 服务器内部错误如果我发送的字符串低于1400 个字符我没
在没有安装 Hadoop 的情况下在 Spark 上提交 .py 脚本

我有以下简单的字数统计 Python 脚本 from pyspark import SparkConf SparkContext conf SparkConf setMaster local setAppName My App sc Spa

在没有安装 Hadoop 的情况下在 Spark 上提交 .py 脚本

在没有安装 Hadoop 的情况下在 Spark 上提交 .py 脚本 的相关文章

随机推荐

热门标签

在没有安装 Hadoop 的情况下在 Spark 上提交 .py 脚本的相关文章