Hadoop 性能

2024-04-12

我安装了hadoop 1.0.0并尝试了字数统计示例（单节点集群）。完成时间为 2 分 48 秒。然后我尝试了标准的 Linux 字数统计程序，该程序在同一组（180 kB 数据）上运行只需 10 毫秒。是我做错了什么，还是 Hadoop 非常非常慢？

time hadoop jar /usr/share/hadoop/hadoop*examples*.jar wordcount someinput someoutput
12/01/29 23:04:41 INFO input.FileInputFormat: Total input paths to process : 30
12/01/29 23:04:41 INFO mapred.JobClient: Running job: job_201201292302_0001
12/01/29 23:04:42 INFO mapred.JobClient:  map 0% reduce 0%
12/01/29 23:05:05 INFO mapred.JobClient:  map 6% reduce 0%
12/01/29 23:05:15 INFO mapred.JobClient:  map 13% reduce 0%
12/01/29 23:05:25 INFO mapred.JobClient:  map 16% reduce 0%
12/01/29 23:05:27 INFO mapred.JobClient:  map 20% reduce 0%
12/01/29 23:05:28 INFO mapred.JobClient:  map 20% reduce 4%
12/01/29 23:05:34 INFO mapred.JobClient:  map 20% reduce 5%
12/01/29 23:05:35 INFO mapred.JobClient:  map 23% reduce 5%
12/01/29 23:05:36 INFO mapred.JobClient:  map 26% reduce 5%
12/01/29 23:05:41 INFO mapred.JobClient:  map 26% reduce 8%
12/01/29 23:05:44 INFO mapred.JobClient:  map 33% reduce 8%
12/01/29 23:05:53 INFO mapred.JobClient:  map 36% reduce 11%
12/01/29 23:05:54 INFO mapred.JobClient:  map 40% reduce 11%
12/01/29 23:05:56 INFO mapred.JobClient:  map 40% reduce 12%
12/01/29 23:06:01 INFO mapred.JobClient:  map 43% reduce 12%
12/01/29 23:06:02 INFO mapred.JobClient:  map 46% reduce 12%
12/01/29 23:06:06 INFO mapred.JobClient:  map 46% reduce 14%
12/01/29 23:06:09 INFO mapred.JobClient:  map 46% reduce 15%
12/01/29 23:06:11 INFO mapred.JobClient:  map 50% reduce 15%
12/01/29 23:06:12 INFO mapred.JobClient:  map 53% reduce 15%
12/01/29 23:06:20 INFO mapred.JobClient:  map 56% reduce 15%
12/01/29 23:06:21 INFO mapred.JobClient:  map 60% reduce 17%
12/01/29 23:06:28 INFO mapred.JobClient:  map 63% reduce 17%
12/01/29 23:06:29 INFO mapred.JobClient:  map 66% reduce 17%
12/01/29 23:06:30 INFO mapred.JobClient:  map 66% reduce 20%
12/01/29 23:06:36 INFO mapred.JobClient:  map 70% reduce 22%
12/01/29 23:06:37 INFO mapred.JobClient:  map 73% reduce 22%
12/01/29 23:06:45 INFO mapred.JobClient:  map 80% reduce 24%
12/01/29 23:06:51 INFO mapred.JobClient:  map 80% reduce 25%
12/01/29 23:06:54 INFO mapred.JobClient:  map 86% reduce 25%
12/01/29 23:06:55 INFO mapred.JobClient:  map 86% reduce 26%
12/01/29 23:07:02 INFO mapred.JobClient:  map 90% reduce 26%
12/01/29 23:07:03 INFO mapred.JobClient:  map 93% reduce 26%
12/01/29 23:07:07 INFO mapred.JobClient:  map 93% reduce 30%
12/01/29 23:07:09 INFO mapred.JobClient:  map 96% reduce 30%
12/01/29 23:07:10 INFO mapred.JobClient:  map 96% reduce 31%
12/01/29 23:07:12 INFO mapred.JobClient:  map 100% reduce 31%
12/01/29 23:07:22 INFO mapred.JobClient:  map 100% reduce 100%
12/01/29 23:07:28 INFO mapred.JobClient: Job complete: job_201201292302_0001
12/01/29 23:07:28 INFO mapred.JobClient: Counters: 29
12/01/29 23:07:28 INFO mapred.JobClient:   Job Counters 
12/01/29 23:07:28 INFO mapred.JobClient:     Launched reduce tasks=1
12/01/29 23:07:28 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=275346
12/01/29 23:07:28 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0
12/01/29 23:07:28 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
12/01/29 23:07:28 INFO mapred.JobClient:     Launched map tasks=30
12/01/29 23:07:28 INFO mapred.JobClient:     Data-local map tasks=30
12/01/29 23:07:28 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=137186
12/01/29 23:07:28 INFO mapred.JobClient:   File Output Format Counters 
12/01/29 23:07:28 INFO mapred.JobClient:     Bytes Written=26287
12/01/29 23:07:28 INFO mapred.JobClient:   FileSystemCounters
12/01/29 23:07:28 INFO mapred.JobClient:     FILE_BYTES_READ=71510
12/01/29 23:07:28 INFO mapred.JobClient:     HDFS_BYTES_READ=89916
12/01/29 23:07:28 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=956282
12/01/29 23:07:28 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=26287
12/01/29 23:07:28 INFO mapred.JobClient:   File Input Format Counters 
12/01/29 23:07:28 INFO mapred.JobClient:     Bytes Read=85860
12/01/29 23:07:28 INFO mapred.JobClient:   Map-Reduce Framework
12/01/29 23:07:28 INFO mapred.JobClient:     Map output materialized bytes=71684
12/01/29 23:07:28 INFO mapred.JobClient:     Map input records=2574
12/01/29 23:07:28 INFO mapred.JobClient:     Reduce shuffle bytes=71684
12/01/29 23:07:28 INFO mapred.JobClient:     Spilled Records=6696
12/01/29 23:07:28 INFO mapred.JobClient:     Map output bytes=118288
12/01/29 23:07:28 INFO mapred.JobClient:     CPU time spent (ms)=39330
12/01/29 23:07:28 INFO mapred.JobClient:     Total committed heap usage (bytes)=5029167104
12/01/29 23:07:28 INFO mapred.JobClient:     Combine input records=8233
12/01/29 23:07:28 INFO mapred.JobClient:     SPLIT_RAW_BYTES=4056
12/01/29 23:07:28 INFO mapred.JobClient:     Reduce input records=3348
12/01/29 23:07:28 INFO mapred.JobClient:     Reduce input groups=1265
12/01/29 23:07:28 INFO mapred.JobClient:     Combine output records=3348
12/01/29 23:07:28 INFO mapred.JobClient:     Physical memory (bytes) snapshot=4936278016
12/01/29 23:07:28 INFO mapred.JobClient:     Reduce output records=1265
12/01/29 23:07:28 INFO mapred.JobClient:     Virtual memory (bytes) snapshot=26102546432
12/01/29 23:07:28 INFO mapred.JobClient:     Map output records=8233

real    2m48.886s
user    0m3.300s
sys 0m0.304s


time wc someinput/*
  178  1001  8674 someinput/capacity-scheduler.xml
  178  1001  8674 someinput/capacity-scheduler.xml.bak
    7     7   196 someinput/commons-logging.properties
    7     7   196 someinput/commons-logging.properties.bak
   24    35   535 someinput/configuration.xsl
   80   122  1968 someinput/core-site.xml
   80   122  1972 someinput/core-site.xml.bak
    1     0     1 someinput/dfs.exclude
    1     0     1 someinput/dfs.include
   12    36   327 someinput/fair-scheduler.xml
   45   192  2141 someinput/hadoop-env.sh
   45   192  2139 someinput/hadoop-env.sh.bak
   20   137   910 someinput/hadoop-metrics2.properties
   20   137   910 someinput/hadoop-metrics2.properties.bak
  118   582  4653 someinput/hadoop-policy.xml
  118   582  4653 someinput/hadoop-policy.xml.bak
  241   623  6616 someinput/hdfs-site.xml
  241   623  6630 someinput/hdfs-site.xml.bak
  171   417  6177 someinput/log4j.properties
  171   417  6177 someinput/log4j.properties.bak
    1     0     1 someinput/mapred.exclude
    1     0     1 someinput/mapred.include
   12    15   298 someinput/mapred-queue-acls.xml
   12    15   298 someinput/mapred-queue-acls.xml.bak
  338   897  9616 someinput/mapred-site.xml
  338   897  9630 someinput/mapred-site.xml.bak
    1     1    10 someinput/masters
    1     1    18 someinput/slaves
   57    89  1243 someinput/ssl-client.xml.example
   55    85  1195 someinput/ssl-server.xml.example
 2574  8233 85860 total

real    0m0.009s
user    0m0.004s
sys 0m0.000s

这取决于很多因素，包括您的配置、机器、内存配置、JVM 设置等。您还需要减去 JVM 启动时间。

对我来说它运行得更快。也就是说，当然，在小数据集上它会比专用 C 程序慢——考虑一下它在“幕后”所做的事情。

对分布在数千个文件中的 1 TB 数据进行尝试，看看会发生什么。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

Hadoop

MapReduce

Hadoop 性能的相关文章

在 R 中替换数据帧中最低列表值的最有效方法

我有一个数据框 df 其中包含为每个受试者记录的数字列表向量用于测试项目的两次重复 subj item rep vec s1 1 1 2 1 4 5 8 4 7 s1 1 2 1 1 3 4 7 5 3 s1 2 1 6 5 4 1 2
给定两个（大）点集，我如何有效地找到彼此最接近的点对？

我需要解决一个计算问题该问题归结为搜索两个集合之间最接近的点对问题是这样的给定欧几里德空间中的一组点 A 和一组点 B 找到所有对 a b 使得 b 是 B 中与 a 最近的点 a 是 A 中与 b 最近的点集合 A 和 B 的大小
Android 在 ROOM 数据库中插入大量数据

我有大约 10 个模型每个模型都有超过 120K 行和 90 列的记录其中包含双数组值在 Room 中插入任何模型都需要超过 125 130 秒任何人都可以建议我需要做什么才能使用一些批量插入技术来保存所有这些 120K 该技术大约
JMeter：tearDown Thread Group的目的是什么

我想了解JMeter中tearDown Thread Group的实际用法在什么场景下可以使用tearDown Thread Group 根据提供的帮助JMeter 拆解线程组 http jmeter apache org userman
Python：多重分配与单独分配速度

我一直在寻求从我的代码中挤出更多的性能最近在浏览时这个 Python 维基页面 https wiki python org moin PythonSpeed 我发现了这个说法多重分配比单独分配慢例如 x y a b 比 x a y
从 Eclipse 在 AWS-EMR 上运行 MapReduce 作业

我在 Eclipse 中有 WordCount MapReduce 示例我将其导出到 Jar 然后将其复制到 S3 然后我在 AWS EMR 上运行它成功地然后我读到了这篇文章 http docs aws amazon com El
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
快速 log2(float x) 实现 C++

我需要在 C 中非常快速地实现 log2 float x 函数我发现了一个非常有趣的实现而且速度非常快 include
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
bool() 和operator.truth() 有什么区别？

bool https docs python org 3 library functions html bool and operator truth https docs python org 3 library operator htm
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
未使用的功能会产生什么后果

我想知道在代码中使用未使用的函数会产生什么如果有什么后果如果您查找并删除所有未使用的函数和变量性能是否会有明显的改进或者删除未使用的函数和变量只是一个好习惯未使用的功能不会损害性能他们让维护代码的人的工作变得更加困难现代 ID
我应该增强客户端上的 Jquery Mobile 元素还是发送带有 data-enhance="false" 的增强标记？

我有一个产品搜索我正在发送回结果每个结果都包含两个按钮 JQM 控制组我一次发送 24 条记录因此需要增强 24 个控制组如下所示 div class submitButton linkBox div
双端队列与队列速度

我正在研究 LeetCode 上的一个问题 Here https leetcode com problems moving average from data stream 当我完成这个问题后我想出了 class MovingAverag
动态 SQL 和 where case 哪个更好？

我需要创建一个带有 12 个参数的存储过程并使用这些参数的不同组合来过滤查询所有 12 个参数都不是强制性的就好像我传递 3 5 或 12 个参数取决于用户输入的搜索输入一样我可以通过两种方式创建即使用动态 SQL 查询或使用 C
c++11 正则表达式比 python 慢

嗨我想了解为什么以下代码使用正则表达式进行分割字符串分割 include
如何在 C++ 中对静态缓冲区执行字符串格式化？

我正在处理一段对性能要求非常高的代码我需要执行一些格式化的字符串操作但我试图避免内存分配甚至是内部库的内存分配在过去我会做类似以下的事情假设是 C 11 constexpr int BUFFER SIZE 200 char bu
HTML5 Canvas 性能：加载图像与绘图

我正计划使用 javascript canvas 编写一个游戏我只有一个问题在加载图像与仅使用 canvas 的方法进行绘图方面我应该考虑什么样的性能考虑因素因为我的游戏将使用非常简单的几何图形圆形正方形直线所以任何一种方法
增量SQL查询

我的应用程序有一组固定的 SQL 查询这些查询以轮询模式运行每 10 秒一次由于数据库的大小 gt 100 GB 和设计超级规范化我遇到了性能问题每当数据库上发生更改查询结果的 CRUD 事件时是否可以对给定查询进行增量更改
是否存在比 SVN 更快的集中版本控制？

我已经使用 SVN 很长时间了现在我们正在尝试使用 Git 我在这里谈论的不是中心化去中心化的争论我唯一关心的是速度后一个工具要快得多但有时我需要使用一种集中式方法这种方法比分散式方法更简单更简单学习曲线非常快这节省了大

随机推荐

Java非常大的堆大小[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案有人有在 Java 中使用非常大的堆 12 GB 或更大的经验吗 GC 是否会使程序无法使用您使用什么 GC 参数 Sun 或 B
plantUML：泳道和重叠连接器

我正在使用 plantUML 泳道来可视化内部流程但不幸的是当我想要显示已执行和分离的流程时遇到重叠线我正在使用这个 startuml title something dee4e8 p1 c4c9cd p2 daf0fe Backen
如何在空手道中运行单个场景？

为了测试空手道的特定功能我运行 mvn test Dkarate options classpath myfeature feature 有没有办法运行定义到功能中的单个场景是的您可以通过标签 https github com int
仅获取用户媒体（照片） - Twitter API

使用 Twitter API V1 1 是否可以检索用户发布的照片我可以看到执行此操作的一种方法是拉动用户的时间线include entities true并以这种方式搜索照片但这似乎是一种极其麻烦的方法而且容易出现问题例如我们
如何在项目中实现预编译头

我了解预编译头背后的目的和推理然而实施时有哪些规则呢根据我的理解事情是这样的将您的项目设置为使用带有 YU 指令的预编译头创建 stdafx h 文件并将其设置为预编译头将此作为每个 h 文件中的顶部包含语句这是正确的吗您
如何确认邮件已送达或未送达？

下面是我的代码大家看一下 System Net Mail MailMessage oMail new System Net Mail MailMessage System Net Mail SmtpClient smtp new Syst
阶乘的最低有效非零数字

我正在尝试计算阶乘中最低有效的非零数字我有以下片段 document ready function submit click function var n number val get result n function get resu
PHP .htaccess -> 漂亮的 url（相反）

我知道如何进行 URL 重写例如 www example com index php id 1 cat 3 to www example com 1 3 管他呢我知道我不知道到底如何更改所有页面中的整个链接以链接到漂亮的 URL 我网
Angular 2 RxJS Observable：重试，429 状态除外

我已经编写了 Observable 来自 HTTP 请求以在失败时重试不过我想not如果服务器响应为重试429 Too many requests error 无论如何当前的实现都会重试两次间隔 1 秒 return this h
Xdebug 错误的 Zend API 版本号

我在升级 MAMP 的 xdebug 时遇到问题我运行的是 2 2 0 版本遇到了一个已知问题 PhpStorm 和 Xdebug 在 Symfony2 控制器中没有中断 https stackoverflow com question
如何在量角器中重新运行失败的黄瓜场景？

作为测试的一部分我使用打字稿语言来开发与量角器兼容的代码我使用 BDD 框架其中我在 config ts 中定义了一些黄瓜选项如下所示 capabilities specs example feature cucumberOpts
我应该如何使用 Outlook 发送代码片段？

作为一家大公司的程序员我经常发送包含代码示例的 Outlook 电子邮件实际上我会直接在电子邮件中输入代码这不可避免地会导致问题因为 Outlook 确实喜欢以令人愉悦但无益的方式设置文本格式我的代码需要可以从电子邮件中复制出来
快速显示图像UIImageview

如何在 UIImageview 中显示图像然后根据按下的按钮更改图像我很新请放轻松为此首先确保视图控制器中具有可用的图像通过在故事板上的图像和视图控制器中创建图像之间的关联我们假设它名为 imageView 通过编程您可以说
鼠标悬停控件并显示其手柄

我知道我可以编写一个函数作为表单中每个组件的事件来执行某些操作例如当鼠标悬停时是否也可以在不将事件链接到特定组件的情况下调用事件函数而是为应用程序中的所有组件调用事件函数我想要实现的是显示例如只需将鼠标悬停在任何组件上即可获取句
如何在 VS Code 中调试 Flask 应用程序

我一直在尝试让调试器在 VS Code 中工作以便我可以调试我的 Flask 应用程序我已经尝试了很多选择launch json我觉得已经没有了以下示例不起作用 https github com DonJayamanne python
使用 strtok 在 C 中解析字符串

我有这个小源代码用于测试类似于变量的字符串的解析string我需要在其他项目中使用 include
Rails - has_one 关系：关联和非关联对象的范围

我有这样的关系一个用户可以拥有零只或一只狗但狗必须属于某人 dog rb class Dog lt ActiveRecord Base belongs to user end user rb class User lt ActiveRe
在数据库中存储布尔值的最佳数据类型是什么

在数据库中存储布尔值的最佳数据类型是什么最常用的 RDBMS 类型例如 Mysql oracle postgres mssql 都支持它您可以使用 TINYINT 或位数据类型
如何将图例标题放在左侧？

以下代码创建一个带有标题的图例 from pylab import plt plot 1 2 2 3 label sdfsdf legend title s s 位于图例的中心我想知道如何将 s 放在左侧最简单的选择可能是在标题后面添加
Hadoop 性能

我安装了hadoop 1 0 0并尝试了字数统计示例单节点集群完成时间为 2 分 48 秒然后我尝试了标准的 Linux 字数统计程序该程序在同一组 180 kB 数据上运行只需 10 毫秒是我做错了什么还是 Hadoop 非

Hadoop 性能

Hadoop 性能 的相关文章

随机推荐

热门标签

Hadoop 性能的相关文章