Spark 2.1.0中读取大文件时出现内存不足错误

2024-01-02

我想使用 Spark 将大型（51GB）XML 文件（在外部 HDD 上）读取到数据帧中（使用Spark-XML 插件 https://github.com/databricks/spark-xml），进行简单的映射/过滤，重新排序，然后将其作为 CSV 文件写回磁盘。

但我总是得到一个java.lang.OutOfMemoryError: Java heap space不管我如何调整这个。

我想了解为什么增加分区数量不能阻止 OOM 错误

难道它不应该将任务分成更多部分，以便每个部分都更小并且不会导致内存问题吗？

（Spark 不可能尝试将所有内容都填充到内存中，如果不合适就会崩溃，对吗？）

我尝试过的事情：

读取和写入时对数据帧重新分区/合并（5,000 和 10,000 个分区）（初始值为 1,604）
使用较少数量的执行器（6、4，甚至2执行者我收到 OOM 错误！）
减小分割文件的大小（默认为 33MB）
提供大量内存（我拥有的全部）
增加spark.memory.fraction至 0.8（默认为 0.6）
减少spark.memory.storageFraction至 0.2（默认为 0.5）
set spark.default.parallelism到 30 和 40（我的默认值是 8）
set spark.files.maxPartitionBytes至 64M（默认为 128M）

我的所有代码都在这里（请注意，我没有缓存任何内容）：

val df: DataFrame = spark.sqlContext.read
  .option("mode", "DROPMALFORMED")
  .format("com.databricks.spark.xml")
  .schema(customSchema) // defined previously
  .option("rowTag", "row")
  .load(s"$pathToInputXML")

println(s"\n\nNUM PARTITIONS: ${df.rdd.getNumPartitions}\n\n")
// prints 1604

// i pass `numPartitions` as cli arguments
val df2 = df.coalesce(numPartitions)

// filter and select only the cols i'm interested in
val dsout = df2
  .where( df2.col("_TypeId") === "1" )
  .select(
    df("_Id").as("id"),
    df("_Title").as("title"),
    df("_Body").as("body"),
  ).as[Post]

// regexes to clean the text
val tagPat = "<[^>]+>".r
val angularBracketsPat = "><|>|<"
val whitespacePat = """\s+""".r


// more mapping
dsout
 .map{
  case Post(id,title,body,tags) =>

    val body1 = tagPat.replaceAllIn(body,"")
    val body2 = whitespacePat.replaceAllIn(body1," ")

    Post(id,title.toLowerCase,body2.toLowerCase, tags.split(angularBracketsPat).mkString(","))

}
.orderBy(rand(SEED)) // random sort
.write // write it back to disk
.option("quoteAll", true)
.mode(SaveMode.Overwrite)
.csv(output)

NOTES

输入拆分非常小（仅 33MB），那么为什么我不能让 8 个线程每个处理一个拆分呢？它真的不应该破坏我的记忆（我已经知道

UPDATE我写了一个较短的版本只读取文件然后 forEachPartition(println) 的代码。

我遇到同样的 OOM 错误：

val df: DataFrame = spark.sqlContext.read
  .option("mode", "DROPMALFORMED")
  .format("com.databricks.spark.xml")
  .schema(customSchema)
  .option("rowTag", "row")
  .load(s"$pathToInputXML")
  .repartition(numPartitions)

println(s"\n\nNUM PARTITIONS: ${df.rdd.getNumPartitions}\n\n")

df
  .where(df.col("_PostTypeId") === "1")
  .select(
   df("_Id").as("id"),
   df("_Title").as("title"),
   df("_Body").as("body"),
   df("_Tags").as("tags")
  ).as[Post]
  .map {
    case Post(id, title, body, tags) =>
      Post(id, title.toLowerCase, body.toLowerCase, tags.toLowerCase))
  }
  .foreachPartition { rdd =>
    if (rdd.nonEmpty) {
      println(s"HI! I'm an RDD and I have ${rdd.size} elements!")
    }
  }

P.S.：我使用的是 Spark v 2.1.0。我的机器有 8 核和 16 GB 内存。

我在运行 Spark-shell 时遇到此错误，因此我将驱动程序内存增加到一个很高的数字。然后我就可以加载 XML 了。

spark-shell --driver-memory 6G

Source: https://github.com/lintool/warcbase/issues/246#issuecomment-249272263 https://github.com/lintool/warcbase/issues/246#issuecomment-249272263

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

scala

apachespark

apachespark20

apachesparkxml

Spark 2.1.0中读取大文件时出现内存不足错误的相关文章

使用 C# 编辑 XML 文档

我在解决如何将元素添加到 XML 文档中时遇到了一些麻烦我想将热点信息添加到 xml 中其中 Id 正确因此 id 2 添加热点信息这是我当前的 XML
如何将数据库查询的行转换为 XML 文件？

我正在开发一个 Delphi 应用程序该应用程序需要从一段工作中获取行并将其转换为单个 XML 文件以便上传到第三方 Web 服务有没有可用的组件或库可以做到这一点如果不是那么构建 DB2XML 转换器的最佳代码方法是什么我注意
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
在 Scala 中将元素追加到列表末尾

我无法添加 type 元素T到一个列表中List T 我尝试过myList myElement但它似乎创建了一个奇怪的对象并访问myList last始终返回放入列表中的第一个元素我怎么解决这个问题 List 1 2 3 4 Result
解决“Show”类型类实例的隐式问题

我正在努力使Gender实施Show类型类 scala gt trait Gender extends Show Gender defined trait Gender scala gt case object Male extends G
使用 Retrofit 2 解析 XML

我试图从央行获取汇率不幸的是他们没有可以提供 JSON 数据的 api 仅在 XML 中我正在使用 Retrogit 2 我已经创建了两个类它们描述了我从网站获得的 xml 但是当我尝试获取回调的响应时我收到了 404 错误代码也
为 XSD 中的元素指定命名空间

我有一个 XML 需要为其生成 XSD 我的 XML 如下实例
使用批处理解析 XML 文件以从某些特定节点获取值

对于每个节点列表有Lists作为其父节点我想获取保存前三个节点的变量值即entry output and token 我知道如何使用 vbscript 来做到这一点但对我来说批量解决方案更有趣请问可以做吗
jQuery - 提高处理 XML 时的选择器性能

我正在处理一个 XML 文件当使用 XPath 样式选择器选择节点时该文件的性能非常慢这是运行特别慢的部分代码 for i 0 i
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
如何在 scala repl 和 sbt 控制台中关闭/打开 typer 阶段

是否可以在不退出当前会话的情况下切换阶段我尝试进入 power 模式但它仍然不打印类型在SBT中只需添加以下设置 set scalacOptions in Compile console Xprint typer 在 REPL 中你可
有人可以推荐一个免费的 xslt 工具吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何成功地用 XML 中的批处理替换文本

我尝试使用批处理在 XML 页面中替换字符串但无法成功完全替换它我有这个批处理代码 echo off setlocal EnableDelayedExpansion set search logLevel 3 set replace l
如何通过 javascript 和 ajax 调用 Scala 中的方法？

我不知道我的标题是否有点误导但这是我真正需要帮助的我正在获取这个网址 get fb login fbEmail function data console log data 这是我的路线 GET fb login email prese
更改 Windows Phone 系统托盘颜色

有没有办法将 Windows Phone 上的系统托盘颜色从黑色更改为白色我的应用程序有白色背景所以我希望系统托盘也是白色的您可以在页面 XAML 中执行此操作
获取SettingKey[T]的值

我正在开发一个用于文档生成的插件我想将所有生成的文件输出到我选择的目录中该目录可以是SBT的子目录target目录如下 val newTargetDirectory SettingKey File document target di
通过 XML 将重复事件添加到 Google 日历

我正在尝试通过协议 API 将重复事件添加到我的日历中我从在 Google 界面中创建的事件中获取了重复标记的语法并将其用于我的创建请求中这是我提交的内容
XPath 中的 ., 有什么用？

为什么在某些 XPath 表达式中句号后面使用逗号这是一个例子 Set nlist doc selectNodes book author first name starts with M 我试图用谷歌搜索这个但字面意思运算符似乎不喜
Akka-Http 2.4.9 抛出 java.lang.NoClassDefFoundError: akka/actor/ActorRefFactory 异常

我正在尝试使用 Akka http 构建一个简单的 Web 服务我遵循了这个指南 http doc akka io docs akka 2 4 9 scala http low level server side api html htt
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助

随机推荐

Django Test 模拟 ImageField 阻止上传或测试后清理

我正在为我的项目开发一个测试用例涉及一些图像和文件字段有些对象加载了固定装置有些对象是在测试期间创建的我用 InMemoryUploadedFile 模拟了我的图像创建新的测试对象时正在上传模拟图像到 MEDIA ROOT 目
如果你的基类有一个虚拟析构函数，你自己的析构函数自动是虚拟的

我知道标题的说法是正确的那么常规函数呢例如 class Father virtual void foo class Son public Father void foo class GrandSon public Son void fo
让 Karma、6to5ify 和 Istanbul 合作

我有 Browserify 6to5ify 和 Karma 可以很好地发挥作用成功运行我的规范然而当我添加代码覆盖率时事情就变糟了我尝试了几种方法 Add browserify istanbul转换为我的 karma conf j
如果我想添加类型化属性，子类化 NSNotification 是正确的途径吗？

我正在尝试子类化NSNotification Apple 的文档NSNotification陈述以下内容 NSNotification是一个没有实例变量的类簇像这样你必须子类化NSNotification并重写原始方法name obje
无法选择 id=":1" 的 div

对网络东西有点菜鸟但我有一个带有此标签的 div div class 我已经测试过我的 jQuery 可以正常工作当前使用版本 2 1 3 我已经测试了许多其他关于选择器中冒号的 SO 帖子中推荐的选择器然后是其他一些我已经分别尝试
ruby - 如何在 minitest 示例中使用标签

I have require minitest spec require minitest autorun require minitest tags require rspec expectations describe One happ
在一行中多次使用相同模式的正则表达式

我正在寻找的模式是这样的 TXT txt 该模式可以在任何给定行中多次出现我想要么提取模式的每个实例要么使用 sed 或其他任何东西删除每个实例周围的文本 Thanks 您可以将 Perl 用作 cat file foo TXT1 t
如何在 Xcode 7 中使用对象库的堆栈视图

我最近安装了Xcode 7 测试版并发现了一些东西new在对象库中例如水平堆栈视图和垂直堆栈视图当我在其中放入一些控件时 stackview 似乎可以调整大小根据控制尺寸当我呈现更多控制堆栈时似乎从堆栈视图开始自动调整任何一个
获取os.Error值的一种方法——字符串值（Go）

如何获取字符串值os Error 也就是说分配给一个变量例如 package main import errors fmt func main err errors New an error message s err Error fm
Laravel: array_merge(): 参数 #2 不是数组错误

异常开始出现在所有视图中当我尝试运行时composer update 它总是以 error type ErrorException message array merge Argument 2 is not an array file l
ArrayList#size() 大于对象的实际数量

我的 Android 应用程序中有一个 ArrayList 其中有 2 个项目然而它的 size 方法返回 3 我知道这听起来非常简单和愚蠢但它是这样的为什么会出现这种情况呢 ArrayList 的大小如何返回错误的数字当我迭代列
无需数据库即可存储数据？

如果我想存储电子邮件但没有数据库例如 MySQL 我该怎么办数据应该可以从 PHP 访问和写入但常规访问者不得看到该数据希望你能帮忙您可以将它们放入文件中 data Defined somewhere file put co
优先 Web SDK 与 REST API

使用 Priority 的新工具开发网站时在哪些情况下使用 Web SDK 访问 Priority 会比使用 REST API 更好反之亦然又如何呢这取决于您的需求 REST API 主要用于与其他应用程序集成而 WEB SDK 用
在 Mercurial 中指定点作为修订版

我发现一些 Mercurial 命令的修订版被指定为点例如 hg revert all r hg update C r hg pull r 这个点的含义是什么它对应哪个版本 hg help revisions says 保留名称指示工
在 AngularJS 应用程序中预填充远程数据的最佳方法

在我的 AngularJS 应用程序中我需要从远程 REST 端点检索多个静态数据集合这些数据集合将作为静态查找列表在整个应用程序生命周期中使用我希望所有这些列表都在初始应用程序启动时填充并保留并可供多个控制器使用我不想动态加载任
如何导出驻留在给定 Domino 服务器上的数据库列表？

我有一台 Lotus Domino 服务器上面有数量惊人的 Domino 数据库排列在各个文件夹中是否有某种方法可以以某种电子表格格式导出所有这些数据库及其标题和创建者姓名的列表我拥有 Domino Admin 和 Domino D
开发多个 Visual Studio 2010 扩展

我正在单独的解决方案中开发几个独立的 Visual Studio 扩展当我打开其中一个并在调试器中启动实验实例时其他解决方案未打开的其他扩展也会被加载必须有一种方法可以一次仅在实验实例中启动一个扩展特别是您当前正在开发的扩展对
Java中如何将字符串转换为函数？

stackoverflow上有一个类似标题的问题here https stackoverflow com questions 41283897 how to convert string into math function just on
如何在 Rust 中构建多工作区货物项目

我有多工作空间 Cargo 项目它有两个工作区 common and server common is a lib项目和服务器是bin项目该项目在Github中的位置是here https github com rajcspsg mul
Spark 2.1.0中读取大文件时出现内存不足错误

我想使用 Spark 将大型 51GB XML 文件在外部 HDD 上读取到数据帧中使用Spark XML 插件 https github com databricks spark xml 进行简单的映射过滤重新排序然后将其作为

Spark 2.1.0中读取大文件时出现内存不足错误

Spark 2.1.0中读取大文件时出现内存不足错误 的相关文章

随机推荐

热门标签

Spark 2.1.0中读取大文件时出现内存不足错误的相关文章