spark-shell 加载本地文件报错 java.io.FileNotFoundException

2023-11-16

学习spark-shell 时候发现一个问题，从本地文件加载数据生成RDD 报错，文件找不到

原因：spark-shell 如果启动了集群模式，真正负责计算的executor会在，该executor所在的 worker节点上读取文件，并不是在master节点上读取。

解决方案：把数据文件传给各个worker节点

for i in {1..2}; do scp -r /root/spark slave$i:/root/; done

详细情况：

首先进入spark-shell 集群环境，

./spark-shell --master spark://master:7077 --total-executor-cores 1

执行代码：读取文件生成RDD

scala> val rdd1 = sc.textFile("file:///home/hzp/Documents/input.txt")
rdd1: org.apache.spark.rdd.RDD[String] = file:///home/hzp/Documents/input.txt MapPartitionsRDD[1] at textFile at <console>:24

然后报错，

scala> rdd1.count()
2021-05-20 21:58:26,328 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 192.168.100.102, executor 0): java.io.FileNotFoundException: File file:/home/hzp/Documents/input.txt does not exist
at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:666)
at org.apache.hadoop.fs.RawLocalFileSystem.getFileLinkStatusInternal(RawLocalFileSystem.java:987)

从报错内容可以看到，IP是一个worker 节点找不到数据文件，

也就是说 sparkContext 生成DAG图，并将其发给 task schedule,

然后 task schedule 切分stage（也就是task set 任务集合），

然后，各个worker节点会向，task schedule请求任务，然后 task schedule会根据 “计算向数据靠拢原则”，将对应的计算发送给计算所需的数据所在的worker 节点上。

那么如果两个 worker几点上都没数据，那么task 会被随机分给一个worker 节点，然后该节点找不到数据就会报错

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark-shell 加载本地文件报错 java.io.FileNotFoundException 的相关文章

Markdown给公式添加编号

Markdown给公式添加编号 a 2 b 2 c 2 tag 1 2 由公式 1 2 即可得到结论
Eureka集群原理

问题微服务RPC远程服务调用最核心的是什么高可用试想你的注册中心只有一个only one 它出故障了那就呵呵o o了会导致整个微服务环境不可用解决办法搭建Eureka注册中心集群实现负载均衡故障容错 Eureka集群的原理

随机推荐

c语言之字符串数组

还是在写图的存储结构的时候遇到了问题就是如何在一个数组中存放字符串我相信这个问题对于面向对象的编程语言来说轻而易举比如对于Java来说直接像下面就可以了但是c语言没有String这个类型能想到存放字符串的数据类型就是cha
千万级SQL Server数据库表分区的实现

一般在千万级的数据压力下分区是一种比较好的提升性能方法本文将介绍SQL Server数据库表分区的实现 AD 最近使用SQL SERVER一个的缓存数据量一天100w的速度增长同时接受客户查询速度由于数据量越来越大越来越慢这里感
vue3+ts 时间戳转日期格式

时间戳转换成日期格式调用 timestampToTime 1680498539 日期补0 const getzf num number string number gt const numShow string number num lt
EXCEL 做的购订单管理系统

EXCEL 做的购订单管理系统需要的下载采购订单管理系统 01 总体说明 1 本系统主要用于采购订单以及付款管理可进行供应商信息产品信息的基础信息维护可录入采购明细对采购金额进行付款可对采购按照产品和采购日期范围查询对采购明细
memset和memset_s

void memset void s int ch size t n 函数解释将s中前n个字节 typedef unsigned int size t 用 ch 替换并返回 s memset 作用是在一段内存块中填充某个给定的值它是对较
TTransportException: java.net.ConnectException: Connection refused: connect异常

看视频学用Thrift时遇到的环境 win7 thrift 0 12 0 python37 jdk1 8 IDE IJ PC 本机java客户端连本机python服务器部分代码 serverSocket TSocket TServe
数据挖掘-数据探索(EDA)

数据探索 EDA Exploratory Data Analysis 1 EDA的作用 EDA的作用主要在于熟悉并了解数据集对数据集进行处理以便接下来机器学习或者深度学习使用了解数据集之后接下来就是了解数据集中各变量间的相互关系变
2020年6月100篇最新GAN论文汇总

点击上方机器学习与生成对抗网络关注星标获取有趣好玩的前沿干货戳我查看GAN的系列专辑据不完全统计 GAN在CVPR2020上超115篇之多其中可看到GAN在朝着无监督自监督弱监督半监督少样本单样本零样本多模
2024王道408数据结构P144 T16

2024王道408数据结构P144 T16 思考过程首先看题目要求我们把二叉树的叶子结点求出来并且用链表的方式存储链接时用叶结点的右指针来存放单链表指针我们很清楚可以看出来能用中序遍历递归的方式实现因为第一个叶子结点在整棵树的最
Android中拍照和录像功能

目前Android中有很多项目需要实现拍照及录像功能通常都使用camera和sufaceView实现整个过程较为繁琐并且代码量比较大偶然在github上发现一个很好用的框架在这里做一个简单介绍后附github地址 gif 原项目
SpringBoot——整合Mongodb

简单介绍 Mongdb是一个开源高性能无模式的文档型数据库 NoSQL数据库产品中的一种是最像关系型数据库的非关系型数据库使用场景用户数据存储位置数据库特征永久性存储修改频率极低游戏装备数据存储位置数据库 Mong
2023华为od机试 Java实现【关联子串】

题目我们有两个字符串分别叫做 str1 和 str2 现在规定如果 str1 的排列组合只要有一个是 str2 的子串我们就称str1是str2的关联子串请返回子串在str2的起始位置若不是关联子串则返回 1 示例1 输入输出示
jvm垃圾回收

为什么需要垃圾回收首先这个问题的话主要因为内存是计算机中比较宝贵的财富如果堆积的对象过多可想而知内存会用尽出现内存溢出的问题这也就是为什么需要垃圾回收的原因对什么区域进行回收 jvm中的内存结构中虚拟机栈本地方法栈程序
模拟蒙特卡罗方法计算圆周率

使用蒙特卡罗方法计算出圆周率并输出程序运行的时间以及画出散点图 import random as r 调用random库 import time as t 调用time库 import math 调用math库 import matpl
mysql gtid坑_mysql Statement violates GTID consistency 的坑

今天项目迁移重新换了一个数据库版本然后问题来了原本运行正常的程序迁移过来之后就是不能正常运行后台报错如下 update tbl user info set 强制下架 mv count mv count 1 update time n
Visual Studio配置c环境

Visual Studio配置c环境 Visual Studio配置c环境 1 下载Visual Studio 下载Visual Studio软件可以直接在其内进行c的运行不需要配置官网其中社区版免费 2 安装Visual Studi
TreeMap用法总结

public class TreeMap
Java项目获取图片时的相对路径

在eclipse环境下 1 通过new ImageIcon 相对路径 getImage 获取此时的绝对位置是项目根目录相对路径从下一级目录写起如项目名为project 要获取的图片a png在src目录下的pic目录下则代码为 Im
这个智能家居项目开源了

今天推荐一个物联网项目物美智能如果你具备硬件软件知识这个项目肯定符合你的胃口物美智能是一套软硬件结合的开源项目该系统可助你快速搭建自己的智能家居系统你可以学习到设备的集成和软硬件交互 PC 端或者手机与服务端通信单片机可以
spark-shell 加载本地文件报错 java.io.FileNotFoundException

学习spark shell 时候发现一个问题从本地文件加载数据生成RDD 报错文件找不到原因 spark shell 如果启动了集群模式真正负责计算的executor会在该executor所在的 worker节点上读取文件并不是

spark-shell 加载本地文件报错 java.io.FileNotFoundException

spark-shell 加载本地文件报错 java.io.FileNotFoundException 的相关文章

随机推荐

热门标签