运行Hadoop时如何避免OutOfMemoryException？

2024-02-05

我正在运行一个超过 1.5 TB 数据的 Hadoop 作业，并进行大量模式匹配。我有几台每台 16GB RAM 的机器，我总是得到OutOfMemoryException使用这些数据来完成这项工作（我正在使用 Hive）。

我想知道如何最佳设置选项HADOOP_HEAPSIZE在文件中hadoop-env.sh这样，我的工作就不会失败。是否有可能设置此选项，这样我的工作就不会失败？

当我设置HADOOP_HEAPSIZE到 1.5 GB 并从查询中删除了一半的模式匹配，作业成功运行。那么，如果这个选项无助于避免工作失败，它还有什么用呢？

我想要对最佳设置进行更多实验，但由于这些作业需要超过 10 小时才能运行，因此我寻求您的建议。

作业失败还是您的服务器崩溃了？如果您的作业由于节点上的 OutOfMemmory 而失败，您可以调整最大映射和化简器的数量，JVM 会选择每个，这样就永远不会发生这种情况。 mapred.child.java.opts（默认为 200Xmx）通常需要根据数据节点特定硬件进行增加。

http://allthingshadoop.com/2010/04/28/map-reduce-tips-tricks-your-first-real-cluster/ http://allthingshadoop.com/2010/04/28/map-reduce-tips-tricks-your-first-real-cluster/

最大任务可以在名称节点上设置，也可以在可能具有不同硬件配置的数据节点上覆盖（并设置为最终）。最大任务是为映射器和缩减器设置的。要计算此值，它基于 CPU（核心）和您拥有的 RAM 量以及您在 mapred.child.java.opts 中设置的 JVM 最大值（默认值为 200）。 Datanode 和 Tasktracker 均设置为 1GB，因此对于 8GB 机器，mapred.tasktracker.map.tasks.maximum 可以设置为 7，mapred.tasktracker.reduce.tasks.maximum 设置为 7（使用 mapred.child.java） .opts 设置为 -400Xmx（假设 8 核）。请注意，如果您只有 1 个带有 1 个核心的 CPU，那么这些任务最大值是由您的 CPU 完成的，那么是时候为您的数据节点获取新硬件或将掩码任务设置为 1。如果您有 1 个带有 4 个核心的 CPU，那么是时候了将map设置为3并将reduce设置为3会很好（为守护进程节省1个核心）。

默认情况下只有一个reducer，你需要将mapred.reduce.tasks配置为多个。该值应介于每个节点最大任务数乘以数据节点数的 0.95 到 1.75 之间。因此，如果您有 3 个数据节点，并且设置最大任务数为 7，则将其配置在 25 到 36 之间。

如果您的服务器因 OutOfMemory 问题而崩溃，那么 HADOOP_HEAPSIZE 就只针对进程堆（而不是任务的执行）起作用。

最后，如果您的作业花费了那么长时间，您可以检查是否有另一个好的配置添加是mapred.compress.map.output。将此值设置为 true 应该（压缩时间与传输时间之间的平衡）大大加快减速器复制速度，尤其是在处理大型数据集时。通常工作确实需要时间，但也有一些选项可以进行调整以帮助加快速度=8^）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

运行Hadoop时如何避免OutOfMemoryException？的相关文章

SLF4J - Logback：如何在运行时配置记录器？

我们在项目中使用 LogBack 我想根据一些数据库值配置记录器即如果某个数据库值设置为 true 则记录器应同时使用文件和数据库附加程序如果为 false 则记录器必须仅使用数据库附加程序我还想保留使用静态最终记录器因此我不会在每
如何使用postman调用REST API进行azure文件存储？

我想通过postman调用azure的文件存储相关的REST API 以下是我提出请求的方式我正在请求列出文件存储帐户中的所有共享如下所述 https learn microsoft com en us rest api storage
在 Windows 7 中，不从命令行强制终止 JVM

我在 JVM 中运行了 Cobertura 仪器化 jar 当我在运行应用程序的 Windows 控制台中按 Ctrl C 时 JVM 结束并Cobertura 结果已成功刷新到 cobertura ser 文件但我需要使用命令工具不
Maven 配置文件相当于 Gradle

我试图在我的 spring boot 项目构建中实现一个简单的场景包括排除依赖项以及根据环境打包 war 或 jar 例如对于环境dev包括开发工具和包 jar 用于prod包战等我知道它不再是基于 XML 的配置我基本上可以在
Java：BufferedReader readLine() 中的 IOEXception 有何用途？

我可以使用 try catch 循环修复以下异常但我无法理解原因为什么 in readLine 部分会不断引发IOExceptions 抛出此类异常的真正目的是什么目标可能不仅仅是更多副作用代码和 IOException jav
在 Java 和 C 中在运行时调用名为“string”的方法

我们如何调用名称为的方法string在运行时谁能告诉我如何在 Java 和 C 中做到这一点在java中可以通过反射api来完成看一下Class getMethod String methodName Class parameterT
Eclipse 说“更新 Android Developer Toolkit”

我不知何故弄乱了我的 Eclipse 和 Android 设置我不知道如何修复它问题症状如下在首选项 gt Android 中我尝试选择 android sdk linux 的位置选择时出现错误此 Android SDK 需要
全屏独占模式下的 AWT 框架在窗口弹出对话框中最小化

我正在开发一个在全屏独占模式下使用 awt 框架的应用程序一切正常直到弹出窗口可见这会抢走焦点我的应用程序将被最小化这是我的框架的初始化代码 if ApplicationConfig getInstance useFullscre
在 Eclipse 中导航 Java 调用堆栈

在调试器中像GDB http sources redhat com gdb 当您在断点处停止时您可以轻松地向上移动调用堆栈并检查相关的源和堆栈帧数据在 Eclipse 中如何做到这一点 In the 调试视角 http www ibm
Selenium Webdriver 中显式等待 findElements

登录后页面重定向到一个页面我想等待页面加载我在其中按 tagName 查找元素 By inputArea By tagName input List
指定自定义应用程序上下文

我们正在将一些数据服务从使用 jersey spring 的 Jersey 1 x 迁移到使用 jersey spring3 的 Jersey 2 x 我们有一些继承自 JerseyTest 的测试类其中一些类使用 web xml 文件中
用dagger 2查看依赖注入

我有一个自定义视图扩展TextView 我应该在哪里调用我的组件来注入视图 component inject customTextView 因此我发现我需要在自定义视图的构造函数中添加注入在所有视图中或者使一个调用另一个 Exampl
如何告诉 Java SAX 解析器忽略无效字符引用？

当尝试使用字符引用解析不正确的 XML 时例如 x1 Java 的 SAX 解析器因致命错误而惨死例如 org xml sax SAXParseException Character reference x1 is an invalid
如何在 apache poi 中找到包含图片的单元格

我尝试在 xls 文档中循环图像我写下一个代码 HSSFPatriarch patriarch sheet getDrawingPatriarch if patriarch null Loop through the objects fo
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
在 Java Web 应用程序中获取 DataSource 资源

我的 context xml 文件中有以下资源标记
如果可能，将 jFrame 输出到第二台显示器

我在 Java 中的 Swing 上有一个 jFrame 我希望它输出到第二个监视器如果该监视器存在我尝试过这个通过this http download oracle com javase 6 docs api java awt Gr
LinkedBlockingQueue 抛出 InterruptedException

我有这段代码 ALinkedBlockingQueue应该只抛出一个Exception如果在等待添加到队列时被中断但这个队列是无限的所以它应该尽快添加为什么我的关闭方法会抛出一个InterruptedException private
如何使用 JRE 部署 JavaFX 11 桌面应用程序

我有一个 JavaFX JDK 8 桌面业务应用程序它使用 Java Web Start 进行部署用户安装了 Java 8 只需访问 URL 我的 AWS Linux 服务器上的公共 URL 即可下载启动应用程序使用 Web Sta
使用反射 API 填充 Proto 中的地图字段

我正在尝试编写一个模块该模块将获取 Message Builder 和从字段名称到值的映射并将用值填充构建器一切正常直到我遇到地图字段使用 Proto3 我收到一条特定消息我知道我可以执行该消息的字段 builder b put

随机推荐

requestFocus 不适用于 EditText

花了很多时间解决这个问题看起来很简单但我真的很累找不到解决办法我有一个活动活动有 4 个 EditText 组件其中 2 个具有包含列表的弹出菜单 AlertDialog 下一个禁用编辑最后一个是可编辑的并且当用户点击它
java 枚举构造函数中是否允许使用可变参数？

enum MyEnum A 1 2 3 4 B 1 2 C 4 5 8 8 9 private MyEnum int firstInt int otherInts do something with arguments perhaps in
如何为 Google 地图指定自定义聚类标记

我有一个带有标记和聚类的谷歌地图我可以使用如下代码轻松更改标记图标 marker new google maps Marker position lat location data lat lng location data lng ma
对象数组不可picklable

我用 python 创建了一个类如下所示 class myClass fields 1 2 其中 field 1 和 field 2 应该是整数然后我创建了一个数组其元素属于该类myClass如下 array myClass for
如何为打字稿编译器配置`baseUrl`？

我有一个使用模块构建的网站requireJS 我想开始在这个项目上使用 TypeScript 1 8 Visual Studio 2015 并尝试重写其中一个模块目前我的模块如下所示 file ProjectFoo app dashboa
旋转数组 LeetCode (189)

问题如下给定一个数组将数组向右旋转 k 步其中 k 为非负数这是我的代码 class Solution public void rotate vector
NoSql 速成课程/教程 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我已经看到 NoSQL 在 SO 上出现了很多并且我对why你会使用它来自这里维基百科等这可能是由于缺乏对它是什么的具体和统一的定
Eclipse 在哪里存储更新站点列表？可以将其复制到另一个安装吗？

我的 Eclipse 安装完全失败并且无法启动因此我可能必须重新安装它但这在升级到新的 Eclipse 版本时也相关我不想寻找我安装的所有插件那么 Eclipse 在哪里存储可用更新站点的列表呢如果它不是纯文本形式是否可以毫无问
Angular 2 中的嵌套模板[重复]

这个问题在这里已经有答案了我有一个组件
在 ClosedXML 中应用多个过滤器 (SetAutoFilter)

我通过 ClosedXML 对多个列应用过滤器但是仅应用最后一项这些过滤器在单独使用时会起作用我怎样才能应用所有这些我在这里发现了类似的问题ClosedXML Excel 按多列中的值过滤行 https stackoverflow
Chrome 扩展页面 popup.html 无法调整大小

所以我有这个 Chrome 扩展程序可以从互联网上加载一些内容基本上用户单击弹出图标然后后台页面中的一些 JavaScript 加载一些页面从中解析图像并将其放入 popup html 页面中问题是 popup html 没有调
在 C# 中扩展枚举

我想知道是否可以扩展 C 中的 Enum 类型来实现我的自定义 Enum GetValues type 并像 Enum GetMyCustomValues type 那样调用它我正在尝试实现这样的事情 public static bool
使用 C++ 命名参数习惯用法的更好方法？

我一直在为 Windows 开发一个 GUI 库作为个人业余项目不希望有用对于我的主窗口类我设置了选项类的层次结构使用命名参数惯用语 http www parashift com c faq lite named paramete
Microsoft Edge：本地/会话存储无法在新选项卡中工作

我正在开发一个托管在 Azure 中的 Web 应用程序我在 MS Edge 版本 20 10525 0 0 上尝试过但遇到了以下问题我有一个带有 target blank 的链接可以在新选项卡中打开页面在该链接的点击事件中我将
将日期字符串转换为正确的格式

我收到服务器的响应并且需要将日期字符串转换为日期 2017 年 6 月 29 日星期四 07 15 25 0000 我正在尝试将字符串转换为人类可读的格式谁能建议如何将此字符串转换为日期您需要将日期字符串解析为Date对象使用Date
可捕获的致命错误：类 mysqli 的对象无法转换为字符串

所以我有一个问题我对 PHP 非常陌生并且在更新数据库上的字符串时遇到问题它抛出了这个错误 Catchable fatal error Object of class mysqli Could not be Converted to
获取类型的默认构造函数的最有效方法

获取 System Type 的默认构造函数即不带参数的实例构造函数的最有效方法是什么我正在思考下面的代码但似乎应该有一种更简单更有效的方法来做到这一点 Type type typeof FooBar BindingFlags fl
如何从对象中深度删除空值、空对象和空数组

我有一个看起来像这样的对象 var myObject a b c d 2 e 2 f g h i null 2 我想删除空值和空对象数组和对象使其看起来像 a c d 2 e 2 i 2 该函数应删除空值空对象和空数组有什么优雅的方
找出远程服务器上git的版本

我正在本地计算机上寻找 git 命令我可以运行该命令来查找远程服务器上运行的 git 版本如果这可能的话现代 git 服务器始于git 1 7 12 1 https github com git git commit ff5effd
运行Hadoop时如何避免OutOfMemoryException？

我正在运行一个超过 1 5 TB 数据的 Hadoop 作业并进行大量模式匹配我有几台每台 16GB RAM 的机器我总是得到OutOfMemoryException使用这些数据来完成这项工作我正在使用 Hive 我想知道如何最佳设

运行Hadoop时如何避免OutOfMemoryException？

运行Hadoop时如何避免OutOfMemoryException？ 的相关文章

随机推荐

热门标签

运行Hadoop时如何避免OutOfMemoryException？的相关文章