如何让 Hadoop 使用我系统上的所有核心？

2023-12-11

我有一个32核的系统。当我使用 Hadoop 运行 MapReduce 作业时，我从未看到 java 进程使用超过 150% CPU（根据 top），并且通常保持在 100% 左右。它应该接近 3200%。

我需要更改哪些属性（以及在哪个文件中）才能启用更多工作人员？

可能有两个问题，我在下面概述。我还想指出，这是一个非常常见的问题，您应该查看之前提出的 Hadoop 问题。

Your mapred.tasktracker.map.tasks.maximum可以设置为低conf/mapred-site.xml。如果当您检查 JobTracker 时，您看到几个待处理的任务，但只有几个正在运行的任务，这将是问题所在。每个任务都是一个线程，因此假设该节点上最多需要 32 个插槽。

否则，您的数据可能没有被分割成足够的块。您正在运行少量数据吗？您的 MapReduce 作业可能仅在几个输入拆分上运行，因此不需要更多映射器。尝试在数百 MB 的数据上运行您的作业，看看您是否仍然遇到相同的问题。 Hadoop 自动分割您的文件。文件分成的块数是文件的总大小除以块大小。默认情况下，一个映射任务将分配给每个块（而不是每个文件）。

In your conf/hdfs-site.xml配置文件中，有一个dfs.block.size parameter。大多数人将此设置为 64 或 128mb。但是，如果您尝试做一些小事情，您可以将其设置为更多地分解工作。

您还可以手动将文件拆分为 32 个块。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

如何让 Hadoop 使用我系统上的所有核心？的相关文章

线程“main”中出现异常java.lang.UnsupportedClassVersionError，不支持的major.minor版本52.0

我尝试在 hadoop 1 0 4 上运行 WordCount 示例但收到以下错误 Exception in thread main java lang UnsupportedClassVersionError WordCount Uns
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
2017 年在 OS X 上从源代码构建 Apache Hadoop

到目前为止我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
在 Hadoop 中按文件中的值排序

我有一个文件其中每行包含一个字符串然后是一个空格然后是一个数字例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序然后将结果放入文件中为数字分配排名所以我的输出应该
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
这个 Java 语法是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复 java中的是什么意思 https stackoverflow com questions 12649572 what does the type in java mean 在下面的代码中 Itera
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918

随机推荐

为什么一个进程共享同一个HT核心时，另一个进程的执行时间会更短

我有一个带有 4 个 HT 核心 8 个逻辑 CPU 的 Intel CPU 并且构建了两个简单的进程第一个 int main for int i 0 i lt 1000000 i for int j 0 j lt 100000 j 第二
如何使用 React 路由器嵌套路由

我有多个布局应包含不同的屏幕每个布局都有自己的页眉页脚和类似页面应该共享的其他内容这是我想出的代码
d3.js 使用极坐标绘制元素

我是 d3 js 新手不确定要使用哪个 d3 功能我需要围绕原点在圆圈中同心放置一组元素 svg selectAll circle each function d3 select this attr cx r Math cos th
UCM Clearcase：一个项目与多个项目中的流层次结构

我们有一个项目即将向稳定的代码库添加一项新功能除了缺陷修复之外不会进行任何重大更改该计划不是在一段时间内可能一个月单独开发新功能进行中间构建和测试当功能完成并且质量可以接受时将新功能的代码合并到主分支中问题是就 Clea
scanf 导致 C 中的无限循环

我对 C 语言比较陌生但我已经编程几年了我正在为大学课程编写一个程序我很困惑为什么下面的 scanf 函数没有被调用导致无限循环我尝试过将 scanf 放在函数之外调用它两次一次从内部一次从外部以及其他一些方式我在网上读
BizTalk部署期间不需要通过控制台导入MIS时

允许哪些 BizTalk 应用程序编排模式映射更改不强制通过管理控制台导入 MSI 而只在 GAC 中安装 DLL 通过控制台强制导入以停止编排并终止实例但在 GAC 中安装仅需要重新启动该应用程序的主机因此有时不停止生产环境中
一个接一个地执行方法，执行之间有暂停

新手 obj c 问题我正在编写一个简单的 iPad 演示文稿不适用于 Appstore 我的任务是实现几个相继执行的方法并且它们之间几乎没有停顿主要结构如下查看负载暂停两秒然后执行method1 暂停两秒然后执行metho
检查多个列中的一个值

我有一个包含这样的列的表例如 id col1 col2 col3 col4 现在我想检查一下是否ANY of col1 col2 col3 col4具有传递的值要做到这一点路还很长 SELECT FROM table WHERE c
从购物车中删除运费计算

如何从商店的购物车中删除运费计算这是网站 tintinportintin com br 在 app design frontend base default checkout xml 的第 89 行你会发现
CPU最大线程数

这与处理器的线程有什么关系例如 Intel i5 有四个核心和四个线程我们的程序中可以使用多少个线程例如在 C 中使用 std thread STL 8个线程对于一个程序来说是大还是小这确实取决于根据经验将线程数量限制为接近核心
Hyperledger Composer：错误：无法请求身份。尝试注册用户并返回证书时出错

我正在关注一个hyperledger composer tutorial 我无法在执行命令时执行步骤 15 composer identity request c PeerAdmin byfn network org1 only u adm
为什么 stat_密度 (R; ggplot2) 和 gaussian_kde (Python; scipy) 不同？

我正在尝试对一系列可能不是正态分布的分布生成基于 KDE 的 PDF 估计我喜欢 R 中 ggplot 的 stat 密度似乎可以识别频率中的每个增量波动但无法通过 Python 的 scipy stats gaussian kde
无法 json_encode() 数组或 Laravel 集合：“不支持类型”

我不知道我做错了什么因为它适用于应用程序中的所有其他模型我多次刷新并重新播种数据库这些模型扩展了相同的抽象方法这是控制器中的代码 substrates this gt substrates gt all gt toArray tem
将 CSV 文件中的日期列以“YYYYMMDDHH24MISS”格式格式化为 ksh 中的“YYYYMMDD HH24MISS”格式

我编写了一个脚本它从 CSV 文件中获取值并将其插入到 postgres 表中但遇到了问题 CSV 文件中的日期列采用 YYYYMMDDHH24MISS 格式表中的同一列定义为时间戳当使用 copy 命令插入时出现以下错误 ERR
从 React 数组中删除项目

我的removeItem函数有问题它应该删除当前的 li 该按钮嵌套在 this state list 上的数组中的项目中目前没有代码因为我尝试了很多东西但没有任何效果所以我最终console logs看看发生了什么所以我删除了
在 Cpanel 上上传 Laravel 项目中的图像

我的功能是上传图像但问题是为什么图像没有上传到 public html 文件夹图像上传到项目的公共文件夹中 private function upload image tbl name image gt getClientOrigina
Qt::BackgroundRole 似乎被忽略

我正在使用源自的自定义表格模型QAbstractTableModel 我已经覆盖了headerData 我可以通过返回颜色来更改单个行标题或列标题但我在这里只讨论行的字体颜色Qt ForegroundRole if role Qt F
Java Swing：JScrollPane 不工作

我有一个包含一些字段的 JPanel JPanel 的高度有限因此我必须在它周围放置一个 JScrollPane 以便人们可以向下滚动正如您在下面看到的它显示得非常完美但您无法向下或向上滚动 DetailPanel detail
如何在 Azure AD 身份验证后重定向到 ASP Net Core MVC 中的不同控制器操作

我已将 ASP Net Core 2 0 项目设置为使用 Azure AD 进行身份验证使用 VS2017 中使用 OIDC 的标准 Azure AD 身份验证模板一切工作正常应用程序返回到基本 url 并在身份验证成功后运行 Hom
如何让 Hadoop 使用我系统上的所有核心？

我有一个32核的系统当我使用 Hadoop 运行 MapReduce 作业时我从未看到 java 进程使用超过 150 CPU 根据 top 并且通常保持在 100 左右它应该接近 3200 我需要更改哪些属性以及在哪个文件中才能

如何让 Hadoop 使用我系统上的所有核心？

如何让 Hadoop 使用我系统上的所有核心？ 的相关文章

随机推荐

热门标签

如何让 Hadoop 使用我系统上的所有核心？的相关文章