将 MapReduce 作业的输出记录到文本文件

2024-02-21

我一直在使用这个 jobclient.monitorandprintjob() 方法将映射缩减作业的输出打印到控制台。我的用法是这样的：

job_client.monitorAndPrintJob(job_conf, job_client.getJob(j.getAssignedJobID()))

其输出如下（打印在控制台上）：

13/03/04 07:20:00 INFO mapred.JobClient: Running job: job_201302211725_10139<br>
13/03/04 07:20:01 INFO mapred.JobClient:  map 0% reduce 0%<br>
13/03/04 07:20:08 INFO mapred.JobClient:  map 100% reduce 0%<br>
13/03/04 07:20:13 INFO mapred.JobClient:  map 100% reduce 100%<br>
13/03/04 07:20:13 INFO mapred.JobClient: Job complete: job_201302211725_10139<br>
13/03/04 07:20:13 INFO mapred.JobClient: Counters: 26<br>
13/03/04 07:20:13 INFO mapred.JobClient:   Job Counters<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Launched reduce tasks=1<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Aggregate execution time of mappers(ms)=5539<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Launched map tasks=2<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Data-local map tasks=2<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Aggregate execution time of reducers(ms)=4337<br>
13/03/04 07:20:13 INFO mapred.JobClient:   FileSystemCounters<br>
13/03/04 07:20:13 INFO mapred.JobClient:     MAPRFS_BYTES_READ=583<br>
13/03/04 07:20:13 INFO mapred.JobClient:     MAPRFS_BYTES_WRITTEN=394<br>
13/03/04 07:20:13 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=140219<br>
13/03/04 07:20:13 INFO mapred.JobClient:   Map-Reduce Framework<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Map input records=6<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Reduce shuffle bytes=136<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Spilled Records=22<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Map output bytes=116<br>
13/03/04 07:20:13 INFO mapred.JobClient:     CPU_MILLISECONDS=1320<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Map input bytes=64<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Combine input records=13<br>
13/03/04 07:20:13 INFO mapred.JobClient:     SPLIT_RAW_BYTES=180<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Reduce input records=11<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Reduce input groups=11<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Combine output records=11<br>
13/03/04 07:20:13 INFO mapred.JobClient:     PHYSICAL_MEMORY_BYTES=734961664<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Reduce output records=11<br>
13/03/04 07:20:13 INFO mapred.JobClient:     VIRTUAL_MEMORY_BYTES=9751805952<br>
13/03/04 07:20:13 INFO mapred.JobClient:     Map output records=13<br>
13/03/04 07:20:13 INFO mapred.JobClient:     GC time elapsed (ms)=0<br>

我希望将上述输出/日志打印在文本文件中，而不是控制台中。有什么建议么？

在您的 HADOOP_HOME/conf 中您可能会找到一个名为：log4j.properties。我相信您可以在那里配置登录位置和方式。

准确地说，您应该使用滚动文件追加器，所以你应该取消注释（只需删除#）以下几行来自log4j.properties file:

# Rolling File Appender
#

#log4j.appender.RFA=org.apache.log4j.RollingFileAppender
#log4j.appender.RFA.File=${hadoop.log.dir}/${hadoop.log.file}

# Logfile size and and 30-day backups
#log4j.appender.RFA.MaxFileSize=1MB
#log4j.appender.RFA.MaxBackupIndex=30

#log4j.appender.RFA.layout=org.apache.log4j.PatternLayout
#log4j.appender.RFA.layout.ConversionPattern=%d{ISO8601} %-5p %c{2} - %m%n
#log4j.appender.RFA.layout.ConversionPattern=%d{ISO8601} %-5p %c{2} (%F:%M(%L)) - %m%n

并根据您的喜好自定义其他参数。

有关 log4j 配置的更多信息，请阅读here http://logging.apache.org/log4j/2.0/manual/configuration.html#AutomaticConfiguration.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

将 MapReduce 作业的输出记录到文本文件的相关文章

如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
这个 Java 语法是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复 java中的是什么意思 https stackoverflow com questions 12649572 what does the type in java mean 在下面的代码中 Itera
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
HDFS 中的文件数量与块数量

我正在运行单节点 hadoop 环境当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot

随机推荐

如何在Python中找到两个字符串之间的最长交集？

我正在尝试编写一个程序来找到两个字符串之间最长的交集条件是如果没有公共字符程序将返回一个空链如果有多个相同长度的公共字符子串则应返回最大的一个例如对于 bbaacc 和 aabb 重复子串是 aa 和 bb 但 bb gt a
Mock 框架与 MS Fakes 框架

对 NMock 等 Mock 框架与 VS 2011 Fakes 框架的差异有点困惑通过MSDN 我了解到Fakes允许您像RhinoMock或NMock一样模拟您的依赖项但是方法不同 Fakes生成代码来实现此功能但Mocks框架不
选定的文本背景颜色

当我使用任何网站时我看到选定的文本背景颜色显示蓝色或根据我们的操作系统主题我可以更改此选定的文本背景颜色吗您可以使用这种风格这适用于除 IE 之外的所有主要浏览器
Python 3.3 无法导入 Crypt

当我在命令行中输入 import Crypt 时它会显示 gt gt gt import crypt Traceback most recent call last File
如何编写正则表达式“行”包含字符串[重复]

这个问题在这里已经有答案了我有字符串 one line second line magic line foo third line 如何仅使用关键字将整行与 foo 匹配foo 所以我可以匹配foo using foo g 但我不知道如
如何在运行时获取测试环境

我想检查代码是否正在运行go test 这样我就可以进行一些配置有什么功能可以做到这一点吗喜欢运行时 IsBeingTested 只需指定您在 test 中运行测试init 例如在 pkg go 中 package pkg var
从 Chrome 94+ 与不支持 HTTPS 的 LAN 设备通过网络应用程序进行通信

我们开发了一个 Web 应用程序通过发送 POST 请求与连接到同一 LAN 的打印机进行通信此类打印机有一个在端口 80 上打开的服务器该服务器接受包含命令的 XML 无法从通过 HTTPS 加载的页面与网络设备进行通信因此我们
调用 SaveChanges() 时排除更新属性

似乎有两种方法可以使用附加方法来更新断开连接的实体框架实体方法一是简单地将断开连接的实体的状态设置为已修改 myDbContext Dogs Attach dog myDbContext Entry dog State EntityS
如何在C#中枚举音频输出设备

我想知道如何获取计算机上已安装的音频输出设备 waveOut 的列表操作系统 Windows XP Vista 7 框架 Net 3 5 语言 c 迭代此列表时我想获取每个设备的标识符制造商等信息有什么提示吗下面是使用 WMI 参
JSP 组件创建

创建 JSP 页面时我经常喜欢的一件事是能够执行以下操作
Gulp 伊斯坦布尔完整覆盖报告

我正在使用 gulp istanbul 通过 Gulp 生成 JavaScript 单元测试覆盖率报告有没有办法配置 Istanbul 以生成我的 gulp 流中所有 JS 文件的完整覆盖率报告而不仅仅是测试用例涉及的文件我正在开发一
main 函数不返回任何内容。为什么？ [复制]

这个问题在这里已经有答案了对于 C C main 必须始终返回一个整数零表示成功非零表示失败我可以理解这一点因为程序运行时它成为一个进程每个进程都应该有一个退出状态我们通过执行 echo 获得退出状态进程结束后从 shell
如何在 git 中找到 origin/master 的位置，以及如何更改它？

我是 Git 新手我最近将一个 Rails 项目从 Subversion 迁移到了 Git 我按照这里的教程进行操作 http www simplisticcomplexity com 2008 03 05 cleanly migrate
如何创建像所附照片一样的用户界面

谁能告诉我这个照片效果叫什么我想知道如何为这个附加的图像效果创建一个适配器编辑这是Android市场的示例照片我想创建一个这样的布局我想这应该覆盖 GridView 适配器肖像截图风景截图另一张截图我非常抱歉我的问题对你们
如何使用 Google Colab 安装 vizdoom？

我正在关注本教程 https github com simoninithomas Deep reinforcement learning Course blob master Policy 20Gradients Doom Doom 20R
Matlab 箱线图属性

I m trying to plot this box plot like this 我尝试了这段代码 boxplot randn 10 98 notch on set 0 DefaultAxesFontName Cambria Math
Heroku Rails Net::HTTP: OpenSSL::SSL::SSLError: SSL_connect 返回=1 errno=0 状态=SSLv3 读取服务器证书 B: 证书验证失败

我有一个在 Heroku 服务器上运行的 Rails 应用程序但我在使用 Net HTTP over HTTPS 与外部服务器通信时遇到问题每当我尝试时收到的错误POST通过 HTTPS 到外部专有 API 的方法是 OpenSSL S
为什么我的小型大写字体变体 CSS 类被忽略？

我添加了这个 CSS 类 beanies font variant small caps 我从几个地方调用它再加上另一个类以这种方式尝试 p class coolPools beanies LICENSE 764014 p 和这个 h3
列数会影响MYSQL的速度吗？

我有一张桌子我只需要运行一种类型的查询在第 1 列中查找给定的唯一值然后获取前 3 列现在如果我在表中添加额外的几列以进行基本的数据存储会对速度产生多大影响我知道我应该使用一个单独的表但假设我仅限于只有 1 个表所以唯一
将 MapReduce 作业的输出记录到文本文件

我一直在使用这个 jobclient monitorandprintjob 方法将映射缩减作业的输出打印到控制台我的用法是这样的 job client monitorAndPrintJob job conf job client getJ

将 MapReduce 作业的输出记录到文本文件

将 MapReduce 作业的输出记录到文本文件 的相关文章

随机推荐

热门标签

将 MapReduce 作业的输出记录到文本文件的相关文章