从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

2024-05-10

我正在尝试读取提交的文件spark-submit在客户端模式下连接到yarn集群。将文件放入 HDFS 不是一个选项。这是我所做的：

def main(args: Array[String]) {
   if (args != null && args.length > 0) {
        val inputfile: String = args(0)

        //get filename: train.csv
        val input_filename = inputfile.split("/").toList.last 

        val d = SparkSession.read
                .option("header", "true")
                .option("inferSchema", "true")
                .csv(SparkFiles.get(input_filename))
        d.show() 
   }   
}

并以这种方式提交给yarn：

spark2-submit \
--class "com.example.HelloWorld" \
--master yarn --deploy-mode client \
--files repo/data/train.csv \
--driver-cores 2 helloworld-assembly-0.1.jar repo/data/train.csv

但我有一个例外：

Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: hdfs://xxxxx.xxxxx.xxxx.com:8020/tmp/spark-db3ee991-7f3d-427c-8479-aa212f906dc5/userFiles-040293ee-0d1f-44dd-ad22-ef6fe729bd49/train.csv;

我也尝试过：

val input_filename_1 = """file://""" + SparkFiles.get(input_filename)
println(input_filename_1)

SparkSession.read
  .option("header", "true")
  .option("inferSchema", "true")
  .csv(input_filename_1)

仍然遇到类似的错误：

 file:///tmp/spark-fbd46e9d-c450-4f86-8b23-531e239d7b98/userFiles-8d129eb3-7edc-479d-aeda-2da98432fc50/train.csv
 Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: file:/tmp/spark-fbd46e9d-c450-4f86-8b23-531e239d7b98/userFiles-8d129eb3-7edc-479d-aeda-2da98432fc50/train.csv;

我尝试了同样的场景--files test.csv与spark.sparkContext.addFile("test.csv")

spark.sparkContext.addFile("test.csv")
val df = spark.read.option("header", "true").option("inferSchema", "true").csv("file://"+SparkFiles.get("test.csv"))

您获得的文件scala> SparkFiles.get("test.csv")

Ex : /tmp/spark-9c4ea9a6-95d7-44ff-8cfb-1d9ce9f30638/userFiles-f8909daa-9710-4416-b0f0-9d9043db5d8c/test.csv在您提交作业的本地文件系统上创建。

所以工人没有这个文件可以读。问题可能出在使用spark.read.csv

Edit:

我尝试将本地创建的文件复制到其他节点。有效.

希望这会有所帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hadoopyarn

从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复] 的相关文章

Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
Pyspark dataframe：如何按组应用 scipy.optimize 函数

我有一段运行良好的代码但使用 pandas 数据帧 groupby 处理但是由于文件很大 gt 7000 万组我需要转换代码以使用 PYSPARK 数据框架这是使用 pandas dataframe 和小示例数据的原始代码 imp
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为

随机推荐

从 WPF 绑定列表框中删除项目

我有一个带有 ListBox 称为 listMyItems 的 WPF 应用程序它已成功绑定到我创建的 MyItems 类我有一个名为 currentMyItems 的 MyItems 列表然后将其作为 ItemSource 分配给
相当于 gradle 中测试依赖的 api？

我有多模块 gradle 项目在我的模块之一中我有 api 依赖项 api de flapdoodle embed de flapdoodle embed mongo 我想将其更改为在所有模块的测试中可见的依赖项有一个testImpl
如何将数据从布局传递到 Sapper 中的页面？

在 Svelte 中你可以通过插槽中内容的道具 https svelte dev tutorial slot props
使用自己的 Web 应用程序 API - 使用 OAuth2 进行身份验证过程

Overview 我目前正在为图像共享应用程序创建 API 该应用程序将在网络上运行将来在移动设备上运行我了解 API 构建的逻辑部分但我仍然在努力满足我自己对身份验证部分的要求因此我的 API 必须可供全世界访问具有访客访问权
如何在 ASP.NET 中检查用户是否在线？

该网站最后活动 1 分钟前来自此 IP 地址背后的逻辑是什么如果您在隐藏字段中获取用户的 IP 地址我该如何在 vb net 中执行此操作我如何查看有多少用户在线使用该应用程序 ASP NET 会员服务支持此功能要获取特定用户的
JavaDoc @see MyClass 构造函数返回警告“未找到引用”

我正在尝试为我的客户端库创建 javadoc 在 MyOtherClass 中我放置了下面的 see 并收到警告 MyOtherClass 和 MyClass 都位于同一项目中的不同包中 see MyClass Constructor T
使用 SQLite 创建列表树

我正在尝试使用 PHP 和 SQLite 表设置创建一个分层列表如下所示 itemid parentid name 1 null Item1 2 null Item2 3 1 Item3 4 1 Item4 5 2 Item5
小程序打印；小程序放弃安全权限； Windows 7 和 Java 7

使用 Java Liveconnect 能够通过浏览器中的小程序访问打印机对于我添加的访问权限permission java lang RuntimePermission queuePrintJob in C Program Files
在 Pandas 中创建许多新列的最 Pythonic 方法

我有一个大数据框df 约 100 列和约 700 万行我需要创建约 50 个新变量列它们是当前变量的简单转换一种方法是与许多人一起 apply声明我只是使用transform 作为简单转换的占位符例如max或平方 df new
Java：用于显示差异的 GUI 组件？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在编写一个程序需要在其中生成差异并显示结果是否有任何 GUI 组件可以让我轻松完成此任务或者我
更改 eclipse 中 .txt 文件编辑器的外观

我正在为 Eclipse 使用深色主题当我打开扩展名为 txt 的文件时文本和背景的颜色都是黑色如何更改此 txt 文件编辑器的外观我想将文本颜色设置为白色我对首选项菜单感到困惑我已经找到了在首选项菜单中选择 General
如何“缩放”numpy 数组？

我想将形状 h w 的数组缩放 n 倍从而得到形状 h n w n 的数组其中假设我有一个 2x2 数组 array 1 1 0 1 我想将数组缩放为 4x4 array 1 1 1 1 1 1 1 1 0 0 1 1 0 0 1 1
Java 中的撤消和重做实现

我想问一个关于Java中List的问题很容易实现列表中元素的删除添加和搜索但是Java中如何实现列表的撤销和重做呢谁可以帮我这个事您可能希望实施一个Command Design Pattern为了这一个不错的简化示例List可以
Haskell 中的前提条件检查有哪些选项

这是一个简单的问题我认为答案很复杂一个非常常见的编程问题是函数返回某些内容或者前置条件检查失败在Java中我会使用一些抛出异常的断言函数IllegalArgumentException在方法的开头如下所示 method body
SQL：列出多个连接语句中的重复记录？

你好以下查询在连接多个表后返回所有员工 select e from dbo EMP e join dbo HREMP a on a ID e ID join dbo LOGO c on c EMPID e id join dbo LOGO
如何让 PDF 内容（由 Spring MVC 控制器方法提供）显示在新窗口中

我是 Spring MVC 的新手但它的功能给我留下了深刻的印象我正在使用 3 1 0 RELEASE 并且我必须显示 PDF 来响应 form form 提交这是我在控制器中编写的小代码 RequestMapping value
我可以在 Node 的标头中发送带有 cookie 的 GET 请求吗？

在浏览器中如果我发送 GET 请求该请求同时会发送 cookie 现在我想模拟Node的GET请求那么代码怎么写呢使用奇妙的request https github com mikeal request 默认情况下启用库 cooki
AVMutableComposition - 导出错误的视频转换

导出 VideoAsset 后问题视频方向是不是原始变换导出视频层似乎总是景观尝试去变换视频层方向旋转至原始方向视频层大小使其全屏尺寸按原始方向一些注意事项 videoAsset 的 CGRect 从一开始就是相反的 a
尝试从 Rails 控制器调用辅助方法时出现 NoMethodError

我得到了一个NoMethodError当尝试从我的控制器类之一访问我的帮助器模块之一中定义的方法时我的 Rails 应用程序使用helper类方法与 all符号如下图所示 class ApplicationController lt Ac
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null

从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复] 的相关文章

随机推荐

热门标签