Spark失败：引起：org.apache.spark.shuffle.FetchFailedException：框架太大：5454002341

2024-03-11

我正在为确定父子项的表生成层次结构。

以下是使用的配置，即使在收到有关太大框架的错误后也是如此：

火花特性

--conf spark.yarn.executor.memoryOverhead=1024mb \
--conf yarn.nodemanager.resource.memory-mb=12288mb \
--driver-memory 32g \
--driver-cores  8 \
--executor-cores 32 \
--num-executors 8 \
--executor-memory 256g \
--conf spark.maxRemoteBlockSizeFetchToMem=15g

import org.apache.log4j.{Level, Logger};
import org.apache.spark.SparkContext;
import org.apache.spark.sql.{DataFrame, SparkSession};
import org.apache.spark.sql.functions._;
import org.apache.spark.sql.expressions._;

lazy val sparkSession = SparkSession.builder.enableHiveSupport().getOrCreate();

import spark.implicits._;

val hiveEmp: DataFrame = sparkSession.sql("select * from db.employee");
hiveEmp.repartition(300);
import org.apache.spark.sql.functions._;

val nestedLevel = 3;

val empHierarchy = (1 to nestedLevel).foldLeft(hiveEmp.as("wd0")) { (wDf, i) =>
  val j = i - 1
  wDf.join(hiveEmp.as(s"wd$i"), col(s"wd$j.parent_id".trim) === col(s"wd$i.id".trim), "left_outer")
}.select(
  col("wd0.id") :: col("wd0.parent_id") ::
  col("wd0.amount").as("amount") :: col("wd0.payment_id").as("payment_id") :: (
    (1 to nestedLevel).toList.map(i => col(s"wd$i.amount").as(s"amount_$i")) :::
    (1 to nestedLevel).toList.map(i => col(s"wd$i.payment_id").as(s"payment_id_$i"))

  ): _*);

empHierarchy.write.saveAsTable("employee4");

Error

Caused by: org.apache.spark.SparkException: Task failed while writing rows
   at org.apache.spark.sql.execution.datasources.FileFormatWriter$.org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask(FileFormatWriter.scala:204)
   at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1$$anonfun$3.apply(FileFormatWriter.scala:129)
   at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1$$anonfun$3.apply(FileFormatWriter.scala:128)
   at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
   at org.apache.spark.scheduler.Task.run(Task.scala:99)
   at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322)
   ... 3 more
Caused by: org.apache.spark.shuffle.FetchFailedException: Too large frame: 5454002341
   at org.apache.spark.storage.ShuffleBlockFetcherIterator.throwFetchFailedException(ShuffleBlockFetcherIterator.scala:361)
   at org.apache.spark.storage.ShuffleBlockFetcherIterator.next(ShuffleBlockFetcherIterator.scala:336)

使用此 Spark 配置，spark.maxRemoteBlockSizeFetchToMem

由于> 2G分区存在很多问题（无法洗牌，无法在磁盘上缓存），因此它抛出failedfetchedException太大的数据帧。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

hadoopyarn

Spark失败：引起：org.apache.spark.shuffle.FetchFailedException：框架太大：5454002341 的相关文章

Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
Scala 和 Spark：Windows 上的 Dataframe.write._

有人设法使用 Spark 写入文件尤其是 CSV 吗数据框 http spark apache org docs latest api scala index html org apache spark sql Dataset在 Win
消息：Hive 架构版本 1.2.0 与 Metastore 的架构版本 2.1.0 不匹配 Metastore 未升级或损坏

环境 spark2 11 hive2 2 hadoop2 8 2 hive shell 运行成功并且没有错误或警告但是当运行application sh时启动失败 usr local spark bin spark submit cl
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文

随机推荐

带有 pdf 黑色闪烁的 iframe（闪烁）

我的页面上有一个带有 pdf 的 iframe 并尝试在滚动 iframe 时禁用主窗口的滚动这是它的代码 iframe mouseover function var html html html data previous overfl
htaccess 将除一页之外的所有页面从 html 重定向到 php

我的网站设置为 htaccess 将所有页面从 html 定向到 php 如下所示 RewriteEngine On RewriteBase RewriteCond HTTP HOST website com RewriteRule htt
当 iPad 处于纵向方向时缩小 Mobile Safari 视口宽度？-

我正在开发一个网站该网站设计为在 iPad 上以横向模式查看时效果最佳一切都是 1024px 宽 div 容器然而我仍然需要缩小视口这样当用户将 iPad 转为纵向时用户不必缩小或水平滚动来查看页面上的所有内容目前我有这个标签
正则表达式匹配任何包含特定字母或更多字母的单词？

我需要一个正则表达式来匹配任何包含字母的单词 m a h d以任何顺序在一起所以 Mohamed Hamada and Mahmoud匹配但是hammer不匹配我尝试执行以下操作我是正则表达式的新手 Regex reg new Re
索引和长度必须引用字符串内的位置？

我想获取前 50 个字母所以我使用了subString函数来获取它如您所见我使用以下代码来获取它但不幸的是它不起作用并且出现错误消息索引和长度必须引用字符串中的位置那么还有其他方法可以修复吗因为用户是控制数据输入的人有时他会
float 到 long 转换时出错[重复]

这个问题在这里已经有答案了我猜这是由于浮点和准确性造成的但我只是想检查一下以确保没有遗漏任何其他内容我有一个 1007 62 的浮点数存储在 info Amount 中该浮点数乘以 100 并转换为 long 此时我得到的值为 1
集合类型属性的设置器

集合类型属性是否需要设置器 Type 1 class Company private IList
uWSGI、Flask、sqlalchemy 和 postgres：SSL 错误：解密失败或坏记录 mac

我正在尝试使用 uWSGI Nginx 设置一个应用程序网络服务器它使用 SQLAlchemy 运行 Flask 应用程序来与 Postgres 数据库进行通信当我向网络服务器发出请求时所有其他响应都将是 500 错误错误是 Tra
Java日期更改格式[重复]

这个问题在这里已经有答案了我正在尝试更改格式Date对象我尝试这样做 for Date date dates DateFormat formatter new SimpleDateFormat yyyy MM dd String for
将 Python 枚举编码为 JSON

我有一本字典其中一些键是 Enum 实例 enum Enum 的子类我正在尝试使用自定义 JSON 编码器类将字典编码为 JSON 字符串如下所示文档 https docs python org 3 library json html
创建卷的 Docker 容器后，本地主机上的权限更改为 1000

我的容器使用外部卷创建后权限变为1000 drwxr x 71000 10004096 三月 02 01 13 my domain 每次我需要更改它我的用户 AS docker 由 root 用户安装我怎样才能避免这种情况有人可以写点
将 Jython 与 Maven 结合使用

我有一个 Maven 模块它依赖于我通过 jython 代码访问的各种其他 Maven 依赖项我现在已经完成了我想将项目编译为 jar 或者甚至只是运行它而不编译但我不知道从哪里开始有谁知道如何运行一些 py 文件来访问其他包中的
MYSQL - 使用 while 循环更新

declare c int set c 1 while c lt 700 do update users set profile display name concat substring first name 1 1 last name
.NET Core 更新迁移正在尝试再次重新创建表

我首先正在开发 net core 3 项目代码在此步骤中我在表中添加了 2 列然后我通过此代码 CLI 对解决方案进行了迁移添加 dotnet ef startup project MyApi Api migrations add a
mysql.service 丢失但显示在列表中 - 安装失败

我使用的是 Ubuntu 17 04 长话短说在与 MariaDB 进行了一些斗争之后我遵循了一些关于如何完全地从我的家庭服务器中删除 MySQL 和 MariaDB 现在我无法重新安装mysql server 当我尝试时出现此错误 F
非 ANSI 文件的 TStringList 行为

在我的应用程序中当我想要导入文件时我使用 TStringList 但是当有人从Excel导出数据时文件编码是UCS 2 Little Endian TStringList无法读取数据有什么方法可以验证这种情况识别文本编码并向用户
Mod_wsgi工作进程分段错误（11）

我的 django 应用程序有问题该应用程序由 apache mod wsgi 托管我在应用程序中添加了一些 matplotlib 代码 apache 工作进程现在崩溃了我将这个问题简化为以下内容没有任何 matplotlib 导入
添加模型到集合后自动保存

我有一个收藏myCollection我向其中添加模型如下 myCollection add title Romeo and Juliette author Shakespear 我现在可以将这个添加的模型保存到服务器吗骨干Collecti
找不到方法：'Void Google.Apis.Util.Store.FileDataStore..ctor(System.String)'

我已经被困在这个问题上好几天了我从 google api 示例中复制了确切的代码以将文件上传到 Google Drive 这是代码 UserCredential credential GoogleWebAuthorizationBroke
Spark失败：引起：org.apache.spark.shuffle.FetchFailedException：框架太大：5454002341

我正在为确定父子项的表生成层次结构以下是使用的配置即使在收到有关太大框架的错误后也是如此火花特性 conf spark yarn executor memoryOverhead 1024mb conf yarn nodemanager

Spark失败：引起：org.apache.spark.shuffle.FetchFailedException：框架太大：5454002341

火花特性

Error

Spark失败：引起：org.apache.spark.shuffle.FetchFailedException：框架太大：5454002341 的相关文章

随机推荐

热门标签