如何让 Hadoop 使用我系统上的所有核心?

2023-12-11

我有一个32核的系统。当我使用 Hadoop 运行 MapReduce 作业时,我从未看到 java 进程使用超过 150% CPU(根据 top),并且通常保持在 100% 左右。它应该接近 3200%。

我需要更改哪些属性(以及在哪个文件中)才能启用更多工作人员?


可能有两个问题,我在下面概述。我还想指出,这是一个非常常见的问题,您应该查看之前提出的 Hadoop 问题。


Your mapred.tasktracker.map.tasks.maximum可以设置为低conf/mapred-site.xml。如果当您检查 JobTracker 时,您看到几个待处理的任务,但只有几个正在运行的任务,这将是问题所在。每个任务都是一个线程,因此假设该节点上最多需要 32 个插槽。


否则,您的数据可能没有被分割成足够的块。您正在运行少量数据吗?您的 MapReduce 作业可能仅在几个输入拆分上运行,因此不需要更多映射器。尝试在数百 MB 的数据上运行您的作业,看看您是否仍然遇到相同的问题。 Hadoop 自动分割您的文件。文件分成的块数是文件的总大小除以块大小。默认情况下,一个映射任务将分配给每个块(而不是每个文件)。

In your conf/hdfs-site.xml配置文件中,有一个dfs.block.size parameter。大多数人将此设置为 64 或 128mb。但是,如果您尝试做一些小事情,您可以将其设置为更多地分解工作。

您还可以手动将文件拆分为 32 个块。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何让 Hadoop 使用我系统上的所有核心? 的相关文章

随机推荐

  • 为什么一个进程共享同一个HT核心时,另一个进程的执行时间会更短

    我有一个带有 4 个 HT 核心 8 个逻辑 CPU 的 Intel CPU 并且构建了两个简单的进程 第一个 int main for int i 0 i lt 1000000 i for int j 0 j lt 100000 j 第二
  • 如何使用 React 路由器嵌套路由

    我有多个布局 应包含不同的屏幕 每个布局都有自己的页眉 页脚和类似页面应该共享的其他内容 这是我想出的代码
  • d3.js 使用极坐标绘制元素

    我是 d3 js 新手 不确定要使用哪个 d3 功能 我需要围绕原点 在圆圈中 同心放置一组元素 svg selectAll circle each function d3 select this attr cx r Math cos th
  • UCM Clearcase:一个项目与多个项目中的流层次结构

    我们有一个项目 即将向稳定的代码库添加一项新功能 除了缺陷修复之外 不会进行任何重大更改 该计划不是在一段时间内 可能一个月 单独开发新功能 进行中间构建和测试 当功能完成并且质量可以接受时 将新功能的代码合并到主分支中 问题是就 Clea
  • scanf 导致 C 中的无限循环

    我对 C 语言比较陌生 但我已经编程几年了 我正在为大学课程编写一个程序 我很困惑为什么下面的 scanf 函数没有被调用 导致无限循环 我尝试过将 scanf 放在函数之外 调用它两次 一次从内部 一次从外部 以及其他一些方式 我在网上读
  • BizTalk部署期间不需要通过控制台导入MIS时

    允许哪些 BizTalk 应用程序 编排 模式 映射更改不强制通过管理控制台导入 MSI 而只在 GAC 中安装 DLL 通过控制台强制导入以停止编排并终止实例 但在 GAC 中安装仅需要重新启动该应用程序的主机 因此 有时不停止生产环境中
  • 一个接一个地执行方法,执行之间有暂停

    新手 obj c 问题 我正在编写一个简单的 iPad 演示文稿 不适用于 Appstore 我的任务是实现几个相继执行的方法 并且它们之间几乎没有停顿 主要结构如下 查看负载 暂停两秒 然后执行method1 暂停两秒 然后执行metho
  • 检查多个列中的一个值

    我有一个包含这样的列的表 例如 id col1 col2 col3 col4 现在 我想检查一下是否ANY of col1 col2 col3 col4具有传递的值 要做到这一点 路还很长 SELECT FROM table WHERE c
  • 从购物车中删除运费计算

    如何从商店的购物车中删除运费计算 这是网站 tintinportintin com br 在 app design frontend base default checkout xml 的第 89 行 你会发现
  • CPU最大线程数

    这与处理器的线程有什么关系 例如 Intel i5 有四个核心和四个线程 我们的程序中可以使用多少个线程 例如在 C 中使用 std thread STL 8个线程对于一个程序来说是大还是小 这确实取决于 根据经验 将线程数量限制为接近核心
  • Hyperledger Composer:错误:无法请求身份。尝试注册用户并返回证书时出错

    我正在关注一个hyperledger composer tutorial 我无法在执行命令时执行步骤 15 composer identity request c PeerAdmin byfn network org1 only u adm
  • 为什么 stat_密度 (R; ggplot2) 和 gaussian_kde (Python; scipy) 不同?

    我正在尝试对一系列可能不是正态分布的分布生成基于 KDE 的 PDF 估计 我喜欢 R 中 ggplot 的 stat 密度 似乎可以识别频率中的每个增量波动 但无法通过 Python 的 scipy stats gaussian kde
  • 无法 json_encode() 数组或 Laravel 集合:“不支持类型”

    我不知道我做错了什么 因为它适用于应用程序中的所有其他模型 我多次刷新并重新播种数据库 这些模型扩展了相同的抽象方法 这是控制器中的代码 substrates this gt substrates gt all gt toArray tem
  • 将 CSV 文件中的日期列以“YYYYMMDDHH24MISS”格式格式化为 ksh 中的“YYYYMMDD HH24MISS”格式

    我编写了一个脚本 它从 CSV 文件中获取值并将其插入到 postgres 表中 但遇到了问题 CSV 文件中的日期列采用 YYYYMMDDHH24MISS 格式 表中的同一列定义为时间戳 当使用 copy 命令插入时 出现以下错误 ERR
  • 从 React 数组中删除项目

    我的removeItem函数有问题 它应该删除当前的 li 该按钮嵌套在 this state list 上的数组中的项目中 目前没有代码 因为我尝试了很多东西 但没有任何效果 所以我最终console logs看看发生了什么 所以我删除了
  • 在 Cpanel 上上传 Laravel 项目中的图像

    我的功能是上传图像 但问题是为什么图像没有上传到 public html 文件夹 图像上传到项目的公共文件夹中 private function upload image tbl name image gt getClientOrigina
  • Qt::BackgroundRole 似乎被忽略

    我正在使用源自的自定义表格模型QAbstractTableModel 我已经覆盖了headerData 我可以通过返回颜色来更改单个行标题 或列标题 但我在这里只讨论行 的字体颜色Qt ForegroundRole if role Qt F
  • Java Swing:JScrollPane 不工作

    我有一个包含一些字段的 JPanel JPanel 的高度有限 因此我必须在它周围放置一个 JScrollPane 以便人们可以向下滚动 正如您在下面看到的 它显示得非常完美 但您无法向下 或向上 滚动 DetailPanel detail
  • 如何在 Azure AD 身份验证后重定向到 ASP Net Core MVC 中的不同控制器操作

    我已将 ASP Net Core 2 0 项目设置为使用 Azure AD 进行身份验证 使用 VS2017 中使用 OIDC 的标准 Azure AD 身份验证模板 一切工作正常 应用程序返回到基本 url 并在身份验证成功后运行 Hom
  • 如何让 Hadoop 使用我系统上的所有核心?

    我有一个32核的系统 当我使用 Hadoop 运行 MapReduce 作业时 我从未看到 java 进程使用超过 150 CPU 根据 top 并且通常保持在 100 左右 它应该接近 3200 我需要更改哪些属性 以及在哪个文件中 才能