增加火花任务大小[重复]

2024-01-23

当我在 Spark-Shell 中执行代码时遇到问题。

[Stage 1:>             (0 + 0) / 16]
17/01/13 06:09:24 WARN TaskSetManager: Stage 1 contains a task of very large size (1057 KB). The maximum recommended task size is 100 KB.
[Stage 1:>             (0 + 4) / 16]

在此警告之后，执行被阻止。

我能为谁解决？

我尝试过这个，但它并不能解决问题。

val conf = new SparkConf()
    .setAppName("MyApp")
    .setMaster("local[*]")
    .set("spark.driver.maxResultSize", "3g")
    .set("spark.executor.memory" ,"3g");
val sc = new SparkContext(conf);`

我有类似的错误：

scheduler.TaskSetManager: Stage 2 contains a task of very large size
(34564 KB). The maximum recommended task size is 100 KB

我的输入数据大小约为 150MB，有 4 个分区（即每个分区大小约为 30MB）。这解释了34564 KB上述错误消息中提到的大小。

Reason:任务是 Spark 中作用于输入数据分区的最小工作单元。因此，如果 Spark 告诉任务的大小超过建议的大小，则意味着其处理的分区有太多数据。

对我有用的解决方案：

reducing task size => reduce the data its handling => increase
numPartitions to break down data into smaller chunks

因此，我尝试增加分区数量并消除了错误。
人们可以通过以下方式检查数据帧中的分区数量df.rdd.getNumPartitions
增加分区：df.repartition(100)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

增加火花任务大小[重复] 的相关文章

通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
Scala 中抛出异常，什么是“官方规则”

我正在 Coursera 上学习 Scala 课程我也开始阅读 Odersky 的 Scala 书我经常听到的是在函数式语言中抛出异常不是一个好主意因为它破坏了控制流并且我们通常返回一个失败或成功的 Either Scala 2
以编程方式启动 Scala REPL？

我想从命令行启动 Scala Swing 应用程序然后在应用程序启动后放入 Scala REPL 中以用作控制界面理想情况下我还想预先绑定一些变量名称更好的是使用 REPL 的 Java2D 终端模拟器但我找不到任何合适的东西
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
如何在Gradle中支持多种语言（Java和Scala）的多个项目？

我正在尝试将过时的 Ant 构建转换为 Gradle 该项目包含约50个Java子项目和10个Scala子项目 Java 项目仅包含 Java Scala 项目仅包含 Scala 每个项目都是由 Java 和 Scala 构建的这大大减慢
为什么 Scala 中的隐式类必须驻留在另一个特征/类/对象中？

基于scala文档 http docs scala lang org overviews core implicit classes html http docs scala lang org overviews core implicit
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
Scala：如何将可变参数指定为类型？

代替 def foo configuration String String 我希望能够写 type Configuration String String def foo configuration Configuration 主要用例是
Scala 宏的位置怎么了？

我试图获取宏参数的原始输入字符串但返回的位置似乎有点偏离考虑这个宏例如 object M import scala reflect macros Context import language experimental macros
Scala 的代码覆盖率工具 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
从 HList 获取元素

我尝试了 HList 并按预期进行了以下工作 val hl 1 foo HNil val i Int hl 0 val s String hl 1 但是我无法让以下代码正常工作让我们暂时假设对列表进行随机访问是一个聪明的主意 class
可选择将项目添加到 Scala 映射

我正在寻找这个问题的惯用解决方案我正在构建一个valScala 不可变 Map 并希望有选择地添加一项或多项 val aMap Map key1 gt value1 key2 gt value2 if condition key3 gt
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
使用 net.liftweb.json 或 scala.util.parsing.json 解析大型 (30MB) JSON 文件会出现 OutOfMemoryException。有什么建议吗？

我有一个包含大量测试数据的 JSON 文件我想解析这些数据并推送我正在测试的算法它的大小约为 30MB 包含大约 60 000 个元素的列表我最初在 scala util parsing json 中尝试了简单的解析器如下所示 im
为什么用scala写的代码比用java写的慢6倍？

我不确定我在编写 scala 代码时是否犯了一些错误问题是 The four adjacent digits in the 1000 digit number that have the greatest product are 9 9
Slick和bonecp：org.postgresql.util.PSQLException：FATAL：抱歉，太多客户端已经错误

当我在本地开发应用程序时我使用以下命令启动我的 play2 应用程序sbt run 我喜欢如何更改代码然后重新加载浏览器以查看我的更改在大约 10 次代码更改之后我收到 postgresql 太多连接错误见下文我的数据库连接使用
具有继承类型的 Aux 模式推理失败

我有一个复杂的玩具算法我希望纯粹在类型级别上表示根据饮食要求选择当天菜肴的修改对卷积表示歉意但我认为我们需要每一层才能达到我想要使用的最终界面我的代码有一个问题如果我们表达一个类型约束Aux 模式生成的类型基于另一个泛型类型它
在scala 2.13中，为什么有时无法显式调用类型类？

这是 Shapeless 2 3 3 中的一个简单示例 val book author gt gt Benjamin Pierce title gt gt Types and Programming Languages id gt gt 2
如何通过 javascript 和 ajax 调用 Scala 中的方法？

我不知道我的标题是否有点误导但这是我真正需要帮助的我正在获取这个网址 get fb login fbEmail function data console log data 这是我的路线 GET fb login email prese
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用

随机推荐

你明白这个僵局吗？

我的 GUI 使用 wxPython 在里面AppLogic类我有一个工作线程它在这个类的方法中运行这是GUI class class GUI wx app None main window None app logic None de
SharpDX、DirectWrite 和 Windows 窗体

可以使用 DirectWrite 将文本渲染到 WinForm 应用程序中的 PictureBox 中吗我正在使用 SharpDX 并浏览了 DirectWrite 示例试图构建最简单的工作案例我创建了一个表单并只向其中添加了一个图片
根据列值分割大型 csv 文本文件

我的 CSV 文件有多列已排序例如我可能有这样的行 19980102 PLXS 10032 Q A 15 12500 15 00000 15 12500 2 19980105 PLXS 10032 Q A 14 93750 14 750
C++ 中单例的线程安全惰性构造

有没有一种方法可以在 C 中实现单例对象以线程安全的方式延迟构造两个线程可能同时是单例的第一个用户它仍然应该只构造一次不依赖于预先构造的静态变量因此在构造静态变量期间单例对象本身可以安全使用我不太了解我的C 但是在执行任何代码之
使用 maven-compiler-plugin 排除包适用于一个包，但不适用于另一个包

我的项目具有以下包结构 src com my app school course Course java com my app school course free CourseFree java 我使用Maven来构建项目在我的pom
使用 Stateful Session Bean 来跟踪用户的会话

这是我的第一个问题我希望我做得对我需要从事 Java EE 项目因此在开始之前我尝试做一些简单的事情看看是否能做到我被困住了有状态会话 Bean 这是问题我怎样才能使用SFSB跟踪用户的会话我看到的所有例子最终都放入 S
UIBezierPath：roundedRect：byRoundingCorners：cornerRadii：行为怪异

我正在尝试将按钮的两个角变成圆形如果我像这样选择 TopLeft 和 BottomLeft let bezierDisableAdsPath UIBezierPath roundedRect disableAdsButton bounds
Gitlab Pages：无法验证域所有权

今天早上我收到了针对托管在自定义域上的每个 Gitlab 页面的电子邮件称域验证失败没关系因为我认为我一开始就没有验证过它们 Gitlab 很好地实现了这一点当我转到每个存储库的设置 gt 页面 gt Domain Detail
一个 SVG 文件，里面有很多 SVG 渐变

我正在制作一组使用动态渐变的按钮我已经通过使用 Firefox 3 6 和 WebKit 专有的 CSS 扩展来处理它们我所需要做的就是使用 background image url gradient svg 支持 Opera iOS
phpExcel：无法加载资源：net::ERR_CONNECTION_RESET

我实际上使用 phpExcel 来获取一个 excel 文件我用一个命令从用户那里恢复该文件
Shiny 未检测到shiny:inputchanged 事件

如果应用程序能够检测到上次单击或更新的小部件的 ID 那么我为闪亮的应用程序设计所采用的方法将是最简单的 This https stackoverflow com q 72061061 7742981问题的出现解决了问题然而当我使用接受
从 Rails3-jquery-autocomplete 自定义列表

我有一个hotel模型及其属性是 id hotel name address searchable 当我设置可搜索时false对于特定酒店当我在搜索字段中输入时该酒店不应出现在下拉列表中控制器是 class HotelsControl
表情符号字符变灰（HTML / CSS）

我当前的问题是我正在尝试将带有表情符号的按钮灰显尽管如此由于表情符号的性质似乎无法使用 HTML CSS 属性更改颜色 I e
xib 文件的 iPhone 本地化

我刚刚熟悉 xib 文件的本地化想知道是否有一种方法可以通过直接引用 plist 来本地化 xib 中的字符串欣赏一些想法如果您不想直接本地化 xib 文件则可以将它们包含的文本提取到 strings 文件中并且在翻译 strin
如何使用node.js测试文件权限？

如何检查正在运行的 Node js 进程对给定文件的权限读写执行我希望fs Stats object http nodejs org docs latest api fs html fs class fs stats有一些有关权限的
Django 外键值的精确匹配

class Sentence Model name CharField class Tokens Model token CharField sentence ForeignKey Sentence related name tokens
如何在 android 中模拟 Kotlin 对象？

我在 kotlin 中有一个对象控制当前用户的会话信息我想模拟有回调的登录方法在测试时我需要在 SessionController 对象中模拟此方法 object SessionController fun signIn userna
Java (J2SE) DTMF 音调检测

我正在尝试执行以下操作我正在使用我的 java 应用程序给另一个人打电话已经完成并且工作正常然后我正在播放录音例如请按 1 一继续英语已经完成且工作正常现在我想检测那个人按 1 根据我在 google 搜索中的研究我发现这可
如何在 Excel 中将 hhmmAM/PM（无空格）格式化为时间 hh:mm AM/PM？

我正在开发一个薪资项目为了提高数据输入效率我希望以 hhmmAM PM 格式输入时间没有空格或冒号最好只输入 a p 而不是 AM PM 并将其转换为标准带有冒号和空格的时间格式谢谢这是一个为列编码的小宏A 可以对其进行修改以处
增加火花任务大小[重复]

这个问题在这里已经有答案了当我在 Spark Shell 中执行代码时遇到问题 Stage 1 gt 0 0 16 17 01 13 06 09 24 WARN TaskSetManager Stage 1 contains a task

增加火花任务大小[重复]

增加火花任务大小[重复] 的相关文章

随机推荐

热门标签