Hadoop Mapreduce 控制台输出说明

2023-11-30

我是hadoop环境的新手。我已经设置了2节点hadoop集群。然后我运行示例 MapReduce 应用程序。（实际上是字数）。然后我得到这样的输出

File System Counters
    FILE: Number of bytes read=492
    FILE: Number of bytes written=6463014
    FILE: Number of read operations=0
    FILE: Number of large read operations=0
    FILE: Number of write operations=0
    HDFS: Number of bytes read=71012
    HDFS: Number of bytes written=195
    HDFS: Number of read operations=404
    HDFS: Number of large read operations=0
    HDFS: Number of write operations=2
Job Counters 
    Launched map tasks=80
    Launched reduce tasks=1
    Data-local map tasks=80
    Total time spent by all maps in occupied slots (ms)=429151
    Total time spent by all reduces in occupied slots (ms)=72374
Map-Reduce Framework
    Map input records=80
    Map output records=8
    Map output bytes=470
    Map output materialized bytes=966
    Input split bytes=11040
    Combine input records=0
    Combine output records=0
    Reduce input groups=1
    Reduce shuffle bytes=966
    Reduce input records=8
    Reduce output records=5
    Spilled Records=16
    Shuffled Maps =80
    Failed Shuffles=0
    Merged Map outputs=80
    GC time elapsed (ms)=5033
    CPU time spent (ms)=59310
    Physical memory (bytes) snapshot=18515763200
    Virtual memory (bytes) snapshot=169808543744
    Total committed heap usage (bytes)=14363394048
Shuffle Errors
    BAD_ID=0
    CONNECTION=0
    IO_ERROR=0
    WRONG_LENGTH=0
    WRONG_MAP=0
    WRONG_REDUCE=0
File Input Format Counters 
    Bytes Read=29603
File Output Format Counters 
    Bytes Written=195

我得到的每条数据都有解释吗？尤其，

所有地图在占用槽中花费的总时间（毫秒）
所有reduce占用槽位所花费的总时间（毫秒）
花费的 CPU 时间（毫秒）
物理内存（字节）
虚拟内存（字节）快照
已提交堆使用总量（字节）

当作业已提交执行时，Mapreduce 框架会维护计数器。这些计数器向用户显示，用于了解作业统计数据并查看基准和性能分析。您的作业输出已向您显示了一些计数器。关于计数器的权威指南第8章有很好的解释，我建议你检查一次。

为了解释您要求的物品，

1) 所有映射所花费的总时间 - 运行映射任务所花费的总时间（以毫秒为单位）。包括任务推测性启动（推测性意味着在等待指定时间后运行失败或缓慢的作业，用悲哀的术语来说，推测性作业意味着重新运行任何特定的映射任务）。

2) 所有reduce 花费的总时间- 运行reduce 任务所花费的总时间（以毫秒为单位）。

3) CPU 时间 - 任务的累积 CPU 时间（以毫秒为单位）

4) 物理内存 - 任务使用的物理内存（以字节为单位），这里的内存还计算用于溢出的总内存。

5) 总虚拟内存 - 任务使用的虚拟内存（以字节为单位）

6) 已提交堆使用总量 - JVM 中可用的内存总量（以字节为单位）

希望这可以帮助。权威指南中清楚地给出了计数器的类别及其详细信息，如果您需要任何其他信息，请告诉我。

谢谢。

评论后补充详情——

RAM 是处理作业时使用的主内存。数据将被带到 RAM 中，作业得到处理后将其保留在 RAM 中。但是，数据可能大于分配的 RAM 大小。在这种情况下，操作系统将数据保存在磁盘中，并将其与 RAM 交换，以允许较少的 RAM 足以容纳内存较高的文件。例如：RAM是64MB，假设文件大小是128MB，那么64MB将首先保存在RAM中，其余64MB保存在DISK中，并交换它。虽然它不会将其保留为 64MB 和 64 MB，但在内部它会分为段/页。

我只是举了一个例子来理解。虚拟内存是一个通过使用页面并与磁盘和 RAM 交换来处理大于 RAM 的文件的概念。因此，对于上述情况，它实际上使用磁盘中的 64 MB 作为 RAM，因此称为虚拟内存。

希望你能理解。如果您对答案满意，请接受它作为答案。如果您有任何疑问，请告诉我。

堆用于对象存储的 JVM 内存，在命令行中使用 JVM_OPTS 设置。通常所有的java程序都需要有这些设置。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop Mapreduce 控制台输出说明的相关文章

Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
为什么字符串中的反斜杠（\）在控制台中给出错误

我有一个像这样的字符串 C projects cisco iwan staging enc enterprise network controller ui plugins iwan 当我粘贴到console然后按回车键它给出以下错误 U
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
在 mongo 中，如何使用 Map Reduce 来按最近排序来获取组

我看到的 MapReduce 示例使用了诸如 count 之类的聚合函数但是使用 MapReduce 来获取每个类别中前 3 个项目的最佳方法是什么我假设我也可以使用 group 函数但很好奇因为他们声明分片环境不能使用 group
System.out 什么时候不会出现在 Java 控制台中？

我明白任何要标准化的东西 System out 将出现在 Java 控制台窗口中启用时我在某个地方发现在某些情况下可能无法尝试这样做例如在 Swing 应用程序中是这样吗基本上什么情况或设置我不希望在控制台中看到标准输出例
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
如何在Python中打印带下划线的内容？

print hello 输出应该是单词 hello 但有下划线您可以通过使用转义字符来做到这一点 print 033 4mhello 033 0m
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
这个 Java 语法是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复 java中的是什么意思 https stackoverflow com questions 12649572 what does the type in java mean 在下面的代码中 Itera
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
JUnit Eclipse 显示 System.out.print() 的

我正在使用 JUnit 3 和 Eclipse 3 4 当我运行 JUnit 测试用例时一切正常并且测试完美完成唯一的事情是我想查看我正在运行的类的输出所有类都具有一些输出值的基本 System out print 因此当我运行测试
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制

随机推荐

Visual Studio：通过电源控制台添加项目文件失败

我的任务是在一个解决方案中添加 384 个现有项目以便用项目依赖项替换二进制文件依赖项并使用 msbuild 进行构建为了实现这一目标我尝试使用 Visual Studio API 来自动将项目添加到解决方案中我实际上是 Windo
如何从画布中添加和删除（多个）图像？

我是画布 HTML5 新手我必须在画布上设计一个绘画应用程序有一个功能例如在画布上动态添加所选图像通过鼠标移动以及删除和拖动添加的图像的功能与文本添加相同现在我的问题是我们如何从画布中删除图像注意添加到画布中的图像没有固定
如何在TYPO3 CMS后端重命名副标题

如何为作者重命名 TYPO3 CMS 后端字段即提到的 csc styled content 内容元素字段一般来说覆盖标签名称可以通过后端的 Page TSconfig 来完成下面的例子修改了标签subheader field TC
你调用的对象是空的

我有一个单元格类 public class Cell public enum cellState WATER SCAN SHIPUNIT SHOT HIT public Cell currentCell cellState WATER Me
静态变量的动态初始化阶段

该标准特别指出静态持续时间变量命名空间范围和类静态成员的动态初始化不必在执行 main 之前发生命名空间范围的对象的动态初始化 8 5 9 4 12 1 12 6 1 是否在 main 的第一个语句之前完成是由实现定义的 IS 3
Jenkins-pipeline 从 groovy 中的属性文件中提取并设置变量

首先我将管道完全编写为 groovy 以便签入 git 请不要提供任何gui必要的解决方案我的问题陈述是从文件中提取变量并将其设置为等于 groovy 对象我尝试过的 def SERVICE MAJOR VERSION node r
JavaScript Promise 通过 setTimeout 解决

我不明白为什么第一个 setTimeout 函数起作用但第二个函数不起作用当我运行第二个 setTimeout 时第一个被注释掉但不是 3 秒后解决而是立即解决我对整个承诺事物很陌生我正在学习的教程经常使用带有 setTi
Android 应用程序的数据大小增加是 Glide 造成的吗？

当我使用 glide 库打开并加载少量 100 张图像时 Android 应用程序的数据大小增加了 13MB 我没有管理 glide 的任何缓存属性全部设置为默认值 glide 的磁盘缓存是否有可能导致此问题注意图像大小范围为 100
不可重复读和幻读有什么区别？

有什么区别不可重复读 and 幻读我已阅读维基百科的隔离数据库系统文章但我有一些疑问在下面的示例中将会发生什么不可重复读 and 幻读交易A SELECT ID USERNAME accountno amount FROM
引用变量在内存中是如何表示的？

int num 0 int ptrNum num int refNum num 内存表 1 和表 2 中引用变量的正确表示哪一个是如果表2 那么为什么指针是对象而引用不是如果两种表示都不正确请提供正确的表示并解释为什么引用不是对象内
迭代枚举类实例

有没有一种简单的方法可以迭代 Ceylon 中类的所有枚举实例就像values 对于 Java 枚举 abstract class Suit of hearts diamonds clubs spades shared formal St
如何在 C 中捕获进程输出？

有没有用 C 语言模拟 PHP 系统的情况 man system说那system返回命令的状态但我需要输出就像在 PHP 中一样当然我可以使用管道来实现这一点但是有什么标准的方法吗您可以利用popen相关函数为 command
使用交叉编译器为arm编译原生GCC

我正在寻找为 ARM 系统创建 GCC 的本机版本但遇到了一些麻烦构建机器是 i686 linux 我看到的每个教程都告诉我如何设置实际的交叉编译套件我已经使用 crosstools ng 完成了但是我没有看到任何与编译本机 AR
EXTJS 5 - 仅日期选择器年和月

我想这个问题已经被问了很多次因为我发现了一些有关它的主题但我仍然不知道如何通过仅显示月份和年份来呈现日期选择器我想我可以用不同的方式来做这件事创建我自己的 cuctom 组件但我认为我对 Extjs 的了解还不够好无法创建一个显
是否有一行语法用于构造包含对临时对象的引用的结构？

考虑以下无效的 Rust 代码有一个结构体Foo包含对第二个结构的引用Bar struct Foo lt a gt bar a Bar impl lt a gt Foo lt a gt fn new bar a Bar gt Foo lt
PHP 使用函数返回值作为数组

为什么这有效 cacheMatchesNotPlayed cache gt load externalData cacheMatchesNotPlayed cacheMatchesNotPlayed matchesNotPlayed 但这不
帕斯卡的三角行序列

我目前正在努力寻找帕斯卡三角形的行序列我想输入行号并输出列表中直到该行的数字序列例如 Pascal 4 会给出结果 1 1 1 1 2 1 1 3 3 1 我正在尝试使用我发现的算法这是算法本身 Vc Vc 1 r c c r and
MySQL：选择日期范围内的所有日期并获取与日期匹配的表数据

有一个表其中包含这样的数据 id date 1 2016 07 11 2 2016 07 11 3 2016 07 15 4 2016 07 15 5 2016 07 15 6 2016 07 16 7 2016 07 19 8 2016
Android EditText setError() 无法按预期工作

我有问题setError on EditText 当活动打开时它会检查某些字段是否为空如果为空则在其上设置错误消息但是只有当我在字段中写入一些文本然后将其删除时才会显示感叹号图标如果我失去对该字段的关注该图标将再次消失两个
Hadoop Mapreduce 控制台输出说明

我是hadoop环境的新手我已经设置了2节点hadoop集群然后我运行示例 MapReduce 应用程序实际上是字数然后我得到这样的输出 File System Counters FILE Number of bytes read

Hadoop Mapreduce 控制台输出说明

评论后补充详情——

Hadoop Mapreduce 控制台输出说明 的相关文章

随机推荐

热门标签

Hadoop Mapreduce 控制台输出说明的相关文章