Spark 工作线程在临时随机文件上抛出 FileNotFoundException

2024-03-30

我正在运行一个处理多组数据点的 Spark 应用程序；其中一些集合需要按顺序处理。当针对小型数据点集（大约 100 个）运行应用程序时，一切正常。但在某些情况下，集合的大小约为。 10,000 个数据点，这些会导致工作线程崩溃并显示以下堆栈跟踪：

Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 26.0 failed 4 times, most recent failure: Lost task 0.3 in stage 26.0 (TID 36, 10.40.98.10, executor 1): java.io.FileNotFoundException: /tmp/spark-5198d746-6501-4c4d-bb1c-82479d5fd48f/executor-a1d76cc1-a3eb-4147-b73b-29742cfd652d/blockmgr-d2c5371b-1860-4d8b-89ce-0b60a79fa394/3a/temp_shuffle_94d136c9-4dc4-439e-90bc-58b18742011c (No such file or directory)
    at java.io.FileOutputStream.open0(Native Method)
    at java.io.FileOutputStream.open(FileOutputStream.java:270)
    at java.io.FileOutputStream.<init>(FileOutputStream.java:213)
    at org.apache.spark.storage.DiskBlockObjectWriter.initialize(DiskBlockObjectWriter.scala:102)
    at org.apache.spark.storage.DiskBlockObjectWriter.open(DiskBlockObjectWriter.scala:115)
    at org.apache.spark.storage.DiskBlockObjectWriter.write(DiskBlockObjectWriter.scala:235)
    at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:151)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53)
    at org.apache.spark.scheduler.Task.run(Task.scala:108)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:335)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)

我在多次出现此错误后检查了所有日志文件，但没有找到任何其他错误消息。

在网上搜索这个问题，我发现了两个似乎不适用于我的情况的潜在原因：

The user running the Spark process does not have read/write permission in the /tmp/ directory.
- 鉴于错误仅发生在较大的数据集上（而不是总是发生），我不认为这会成为问题。
The /tmp/ directory does not have enough space for shuffle files (or other temporary Spark files).
- The /tmp/我的系统上的目录大约有 45GB 可用空间，单个数据点中的数据量 (

我已经在这个问题上挣扎了几个小时，试图找到解决方法和可能的原因。

我尝试将集群（通常是两台机器）减少为单个工作程序，与驱动程序在同一台机器上运行，希望这能够消除洗牌的需要，从而防止此错误。这没有用；错误以完全相同的方式发生。
我已将问题隔离为通过尾递归方法顺序处理数据集的操作。

是什么导致了这个问题？我该如何自行确定原因？

事实证明，问题是工作线程上发生了堆栈溢出（哈！）。

凭直觉，我重写了完全在驱动程序上执行的操作（有效地禁用了 Spark 功能）。当我运行这段代码时，系统仍然崩溃，但现在显示StackOverflowError。与我之前的看法相反，显然尾递归方法肯定会导致堆栈溢出，就像任何其他形式的递归一样。将方法重写为不再使用递归后，问题就消失了。

堆栈溢出可能不是唯一可能产生原始 FileNotFoundException 的问题，但进行临时代码更改以将操作拉至驱动程序似乎是确定问题实际原因的好方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

Spark 工作线程在临时随机文件上抛出 FileNotFoundException 的相关文章

Scala：“递归值...需要类型”，但我只使用 Java 类型

object Rec extends App val outStream new java io ByteArrayOutputStream val out new java io PrintStream new java io Buffe
将 DOCTYPE 添加到 Scala XML 的最简单方法？

我怎样才能在 Scala XML 中制作这个最小的 HTML5 p p 当然在 Scala 中制作类似 HTML 的 XML 很简单 gt val html p p html scala xml Elem p p 但是我怎样才能注入DO
承诺的反面是什么？

承诺代表将来可能可用或无法实现的值我正在寻找的是一种数据类型它表示将来可能变得不可用的可用值可能是由于错误 Promise a b TransitionFromTo
Akka中有轻量级的actor吗？

我的用例非常简单在两个对象之间交换少量现在我正在从 Scala Actors 迁移到 Akka 但是我再也找不到那些轻量级 Actors 使用Akka 我不仅需要为Actor创建创建ActorSystem Props 还需要照顾Acto
如何使用精炼库定义 A 和 B 取决于彼此的类型类？

Problem 我有一个案例类 Passenger 从 A 点出发前往 B 点有效乘客意味着A点不等于B点 Passenger a Int b Int 问题我如何使用设计乘客舱refind https index scala lang
比较 javascript 元素和 scala 变量的 Play 框架 Twirl 模板

如下面的代码示例所示我想比较 scala 辅助元素内的 javascript 元素然而即使存在元素 abcde 它也始终返回 false 除了使用标签之外如何获取 scala 辅助元素内的 javascript 值 appSeq S
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
需要澄清令人困惑的 Http4s 消息类型 `Response[F]` / `Request[F]`

我很难理解为什么Request and Response参数化为F 类似的东西是猫效应数据类型资源从文档中 https typelevel org cats effect docs std resource https typelevel
Scala 隐式转换范围问题

采取这个代码 class Register var value Int 0 def getZeroFlag Boolean value 0x80 0 object Register implicit def reg2int r Regist
Scala 中的高级类型 [重复]

这个问题在这里已经有答案了我正在阅读 Scala 中的函数式编程一书在 Monoids 章节中他们讨论了 Monoid 接口如下所示 trait Monoid A def op a1 A a2 A A def zero A 后来他
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
如何在scala中生成n-gram？

我正在尝试在 scala 中编写基于 n gram 的分离新闻算法如何为大文件生成 n gram 例如对于包含蜜蜂是蜜蜂中的蜜蜂的文件首先它必须选择一个随机的 n 元语法例如蜜蜂然后它必须寻找以 n 1 个单词开头的 n 元
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化这些列中很大一部分是字符串值它们可能很长但值通常也
如何将 JVM 选项传递给 SBT 以在运行应用程序或测试用例时使用？

我想在运行我的应用程序或通过 SBT 对应用程序进行测试时指定 JVM 选项具体来说我需要能够为 JVM 提供 Djava security policy 参数以便加载我的策略并用于测试我怎样才能用 SBT 做到这一点 With x
Slick 中的 Scala 枚举（案例对象），良好实践

假设我有一个代表一组几个有效状态的特征将对象存储在数据库中是一个好习惯吗存储 Int 并使用隐式函数 MappedColumnType base Int DoorState 将它们映射到 DoorState 会更好吗 trait Doo
一般处理枚举的 Scala 类

我想创建一个通用类来保存枚举的值并且还允许访问枚举的可能值以属性编辑器为例您需要知道属性的当前值并且还需要能够知道该属性的其他合法值并且枚举的类型不应该提前知道您应该能够使用任何类型的枚举我的第一个想法是这样的 class E
这种奇怪的 Scala 内存泄漏的原因是什么？ [复制]

这个问题在这里已经有答案了即使有 7G 的堆空间这也会耗尽内存 import scala collection mutable Set class Foo val anEmptySet Set Int Set def bar ints
如何在 PySpark 中使用 foreach 或 foreachBatch 写入数据库？

我想使用 Python PySpark 从 Kafka 源到 MariaDB 进行 Spark 结构化流处理 Spark 2 4 x 我想使用流式 Spark 数据帧而不是静态数据帧或 Pandas 数据帧看来必须要用foreach o

随机推荐

解释并举例说明“get”、“delete”、“post”、“put”、“options”、“patch”、“head”方法？

我正在写一个网络服务有人可以解释一下上述方法并给我一些例子吗感谢您的帮助 GET应该用来检索数据没有其他效果但是您可以在 url 中使用查询参数来使用 get 发布数据但这不是一个安全的方法 The POST方法用于请求源服务器接受
PairGrid 上的 Seaborn 相关系数

是否有 matplotlib 或 seaborn 图可以与 g map lower 或 g map upper 一起使用来获取每个二元图显示的相关系数如下所示 plt text 是手动映射以获得下面的示例这是一个繁琐的过程您可以将任何
是否可以使用 HTML/CSS 进行简单计算，但无需 JavaScript 或后端？

许多 Webview 插件例如 Android Webview 的默认行为是禁用 JavaScript 执行在这些情况下是否仍然可以执行简单的计算例如将文本框中的两个数字相加而不使用任何 JavaScript 代码仅使用纯 H
如何动态生成blazor的@bind-Value？

我正在使用 Blazor 我想创建一个动态生成的表单它是网格的一部分数据的实体类型被传递到网格这是表单的基础我现在面临的问题是 bind Value 需要它才能编辑给定的实体 I use Blazor表带 https blazors
如何本地化reverseGeocodeLocation的地址结果？

我的 iPhone 应用程序应该根据用户的纬度和经度解析地址 verseGeocodeLocation 工作正常但结果是英文的有没有办法将结果本地化为其他语言在苹果或其他地方找不到任何有关它的信息我使用的代码是 CLGeocoder
我熟悉 Ruby /DL，但不确定如何使用具有返回参数指针的 C 函数调用

我在这个模块中有这个功能 require dl require dl import module LibCalendars extend DL Importer dlload cal2jd o extern int iauCal2jd in
如何在 Android 中清除 Realm 中的数据库

我想在用户按下注销按钮时清除整个数据库并在另一个用户登录时加载新数据我尝试了很多解决方案例如 try Realm deleteRealm realmConfiguration catch Exception ex throw ex A
具有默认方法的接口何时初始化？

在搜索 Java 语言规范来寻找答案时这个问题 https stackoverflow com questions 23093470 java order of initialization and instantiation 230934
python 对二维列表进行排序

我有一个像这样的二维列表 a 42 206 45 40 45 205 46 41 46 205 47 40 47 202 48 40 48 202 49 38 实际上这些是二维欧几里得空间中的坐标我想以接近点按顺序排列的方式对其进行排序
用Maven项目的源代码生成具有Maven目录结构的jar？

我有一个使用 Maven 构建的 Web 应用程序但我想用maven项目生成一个具有正确maven目录结构的JAR 我试过this http www sonatype com people 2010 01 how to create tw
无法挤压 dim[1]，预期维度为 1，得到 499

我正在尝试制作一个自动编码器但遇到了上述错误查看 Stack Exchange 上的其他帖子并没有帮助这是完整的错误 InvalidArgumentError Can not squeeze dim 1 expected a dime
为什么在 AngularJs 中创建组件时使用方括号表示法

当我们创建控制器服务等组件时 AngularJs 中的方括号有什么用我在示例中看到了 ngRoute ngFileUpload 它有什么用呢它是角度依赖注入的定义方式因此您可以在不破坏源代码的情况下丑化它例如控制器可以定义两个依
如何按顺序执行jquery函数？

正如标题所说如何维护控制Jquery中函数的执行顺序我知道我们可以通过建立许多事件处理程序addEventListener 但不能保证它们的执行顺序让我引用一下请注意即使处理程序按照它们的顺序触发成立后该订单不受标准保证测
如何使用 Jest 测试输出是随机的函数？

如何使用 Jest 测试输出是随机的函数像这样 import cuid from cuid const functionToTest value gt cuid a Math random b new Date toString c va
使用 XmlSerializer 和 WCF SOAP 添加根 xmlns

我有一个由客户从第三方提供的 XML 架构文档生成的类文件我应该能够将这个生成的类用于客户的 SOAP Web 服务但我遇到了一些问题我创建了一个ServiceContract接口这样我就可以使用 WCFChannelFactory
当有多个 IP (.NET) 时选择 HTTP 请求使用哪个 IP

我正在编写一个 NET 程序它将在具有多个 IP 地址的计算机上运行该程序向给定的网址发出 HTTP 请求我想选择我使用的IP地址这样我就可以确定哪个IP地址将出现在其他服务器的日志上建议我相信你可以通过提供一个来强制本地端点B
如何阻止 VS Code 在控制台中截断 Python 数据？

我正在使用 Python 在 VS Code 中打开一个 csv 文件你的基本csv import 我知道完整的 csv 数据正在正确读取因为它按预期通过 Anaconda iPython 打印到 macOS 终端但是当我将 csv
使用 Android 作为客户端、C# 作为服务器的 TCP/IP 通信

我想将一些陀螺仪读数从我的 Android 设备发送到 PC 程序 C 我决定通过套接字编程来完成 Android手机作为客户端运行在计算机上的程序作为服务器这是我的 android 代码它现在发送 hello try socket
ruby - 延迟迭代数组

我想迭代数组的一部分例如我尝试打印除第一个元素之外的每个元素 array 1 1 each e puts e But array 1 1 建立一个新的Array 如果array非常巨大另一种简单的方法 1 array size eac
Spark 工作线程在临时随机文件上抛出 FileNotFoundException

我正在运行一个处理多组数据点的 Spark 应用程序其中一些集合需要按顺序处理当针对小型数据点集大约 100 个运行应用程序时一切正常但在某些情况下集合的大小约为 10 000 个数据点这些会导致工作线程崩溃并显示以下堆栈跟

Spark 工作线程在临时随机文件上抛出 FileNotFoundException

Spark 工作线程在临时随机文件上抛出 FileNotFoundException 的相关文章

随机推荐

热门标签