Spark 执行有时会卡在 Exchange.scala:44 的 mapPartitions 处

2023-12-20

我正在运行一个Spark两节点独立集群上的作业 (v 1.0.1)。

Spark执行经常卡在任务mapPartitions处Exchange.scala:44.

这发生在我工作的最后阶段,打电话给saveAsTextFile(正如我对 Spark 的延迟执行所期望的那样)。

诊断问题很困难,因为我从未在具有本地 IO 路径的本地模式下遇到过该问题,并且偶尔集群上的作业会按预期完成并提供正确的输出(与本地模式的输出相同)。

这似乎可能与阅读有关s3(约 170MB 文件)之前,我在控制台中看到以下日志记录:

DEBUG NativeS3FileSystem - getFileStatus returning 'file' for key '[PATH_REMOVED].avro'
INFO  FileInputFormat - Total input paths to process : 1
DEBUG FileInputFormat - Total # of splits: 3
...
INFO  DAGScheduler - Submitting 3 missing tasks from Stage 32 (MapPartitionsRDD[96] at mapPartitions at Exchange.scala:44)
DEBUG DAGScheduler - New pending tasks: Set(ShuffleMapTask(32, 0), ShuffleMapTask(32, 1), ShuffleMapTask(32, 2))

在任务明显挂起/卡住之前我看到的最后一个日志记录是:

INFO NativeS3FileSystem: INFO NativeS3FileSystem: Opening key '[PATH_REMOVED].avro' for reading at position '67108864'

还有其他人遇到过与从 Spark 中的 s3 读取相关的非确定性问题吗?


None

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 执行有时会卡在 Exchange.scala:44 的 mapPartitions 处 的相关文章

随机推荐

  • 读取 Excel Open XML 会忽略空白单元格

    我正在使用此处接受的解决方案 https stackoverflow com questions 3321082 from excel to datatable in c with open xml将 Excel 工作表转换为数据表 如果我
  • 将主机名解析为 IP 地址

    我开发了一个客户端 服务器模拟应用程序 我在两台不同的 Windows XP 计算机上部署了客户端和服务器 不知何故 客户端无法向服务器发送请求 我尝试了以下选项 使用 IP 地址从客户端成功 Ping 通服务器计算机 使用 IP 地址成功
  • 访问者模式 - 添加新的 ConcreteElement 类很难吗?

    我读了一本关于访客模式的书 它给出了与中相同的类图oodesign 的网站 http www oodesign com visitor pattern html 它说添加新的 ConcreteElement 类很困难 但我不明白为什么 据我
  • CORS 请求 - 为什么未发送 cookie?

    我有一个跨域 AJAX GET 它已成功预检 但 cookie 未附加到 GET 请求 当用户单击登录按钮时 会发出 POST 来使用户登录 这可以在跨域中正常工作 JavaScript 是 ajax signin url type POS
  • Lucene.net 模糊短语搜索

    我自己已经尝试了相当长的一段时间 并在网络上到处寻找 但一直无法找到任何通过 Lucene NET 2 9 2 进行模糊短语搜索的示例 C 是否能够建议如何详细执行此操作和 或提供一些示例代码 我将非常感谢任何帮助 因为我完全陷入困境 我假
  • 检查 Swift 中两个字符串表达式之间的相似度

    我扫描了文字 Mils chiiese wh ite ch col te 和表达式列表 例如 cheese bread white chocolate etc 我需要将损坏的表达式与我的列表中的表达式进行比较 例如 白巧克力 和 wh it
  • 如何解析“Build:‘Promise’仅指一种类型,但在此处用作值。”

    在打字稿中 我收到构建错误 提示 Build Promise 仅指类型 但在此处用作值 我的项目目标是 ES5 从这个帖子中 我可以通过将其更改为 ES6 来解决该问题 有没有办法在不改变目标的情况下解决问题 typescript 错误 T
  • 从 Swagger 文档生成 Yaml 或 Json 文件

    我使用 swagger springmvc 注释开发了一些由 swagger 记录的 Rest Web 服务 现在 我想使用 swagger editor 生成客户端 Rest Web 服务代码 但 swagger editor 需要 Ya
  • Java ME 双空格中的字符串替换

    如何在 Java ME 中将 a b 替换为 a b The replace 方法不接受字符串 只接受字符 由于双空格包含两个字符 我想我有一个小问题 你觉得这个怎么样 我自己尝试过一个 private String replace Str
  • Windows 上 Python 的长路径

    我在 Windows 下运行 Python 编程时遇到问题 我需要使用长度超过 256 个或任何限制字符的文件路径 现在 我基本上阅读了两种解决方案 使用 kernel32 dll 中的 GetShortPathName 并以这种方式访问
  • C# ValueTuple 属性命名

    我正在尝试 C 中的 ValueTuple 类 我对属性命名有疑问 让我们看看 如果实例化一个 ValueTuple 并声明该对象 如下所示 var tuple1 Name Name1 Age 25 我们可以命名属性 但是 像这样 Valu
  • 将 .plist 文件与 iCloud 同步

    我正在尝试弄清楚如何同步 Mac 沙盒应用程序中 应用程序支持 文件夹中的 plist 文件 我知道我可以使用 iCloud 键值存储 但每个应用程序有 64KB 的限制 这可能会或可能不会达到 具体取决于用户向应用程序添加了多少内容 我已
  • Lucene排名-如何使用新的4.0评分模型

    我正拼命地尝试在 Lucene 中实现一项新功能 所以我向您求助 基本上 在此 JIRA ISSE 中 一些额外的评分模型已添加到 Lucene 中 https issues apache org jira browse LUCENE 29
  • MongoDB 聚合不同文档中数组中的项目数?

    这是我的 MongoDB 集合架构 company String model String tags String 我需要聚合它 以便得到以下输出 id company Lenovo model T400 tags tag SomeTag
  • 注入的依赖项应该是公开访问的还是私有的?

    是否应该将依赖项存储到具有私有 setter 和公共 getter 的私有字段或属性 这适用于构造函数 DI 需要明确的是 在属性示例中 我不希望将它们添加到随附的接口中 除非有意义 即它们仅在实现类型中可见 interface IFoo
  • 通配符扩展的 Java 通用类型仅允许添加 null

    我正在使用下面的代码并尝试添加 CHild 对象是列表 List
  • 编辑新创建用户的注册表值

    我有一个 NET 应用程序 它创建一个新的本地用户 如下所示 var principalContext new PrincipalContext ContextType Machine var userPrincipal new UserP
  • 如何使用 svnX 将 *.a 文件添加到存储库中?

    似乎 svnX 默默地忽略所有 a 文件 但是我想将一些库添加到存储库中 如何使用 svnX 来做到这一点 我发现我必须编辑我的 subversion config 文件 取消注释 global ignores 行并删除 a 文件类型 之后
  • 如何在 Python 中前向声明/原型化函数? [复制]

    这个问题在这里已经有答案了 如何在类似于 C 的通用 Python 程序中构建方法原型 Prototype Do Python prototyping writeHello Gives an error as it was not defi
  • Spark 执行有时会卡在 Exchange.scala:44 的 mapPartitions 处

    我正在运行一个Spark两节点独立集群上的作业 v 1 0 1 Spark执行经常卡在任务mapPartitions处Exchange scala 44 这发生在我工作的最后阶段 打电话给saveAsTextFile 正如我对 Spark