为什么组合器输入记录的数量比映射的输出数量多？

2024-05-01

Combiner 在 Mapper 之后、Reducer 之前运行，它将接收给定节点上的 Mapper 实例发出的所有数据作为输入。然后它将输出发送到Reducers。因此组合器输入的记录应小于映射输出的记录。

12/08/29 13:38:49 INFO mapred.JobClient:   Map-Reduce Framework

12/08/29 13:38:49 INFO mapred.JobClient:     Reduce input groups=8649

12/08/29 13:38:49 INFO mapred.JobClient:     Map output materialized bytes=306210

12/08/29 13:38:49 INFO mapred.JobClient:     Combine output records=859412

12/08/29 13:38:49 INFO mapred.JobClient:     Map input records=457272

12/08/29 13:38:49 INFO mapred.JobClient:     Reduce shuffle bytes=0

12/08/29 13:38:49 INFO mapred.JobClient:     Reduce output records=8649

12/08/29 13:38:49 INFO mapred.JobClient:     Spilled Records=1632334

12/08/29 13:38:49 INFO mapred.JobClient:     Map output bytes=331837344

12/08/29 13:38:49 INFO mapred.JobClient:     **Combine input records=26154506**

12/08/29 13:38:49 INFO mapred.JobClient:     **Map output records=25312392**

12/08/29 13:38:49 INFO mapred.JobClient:     SPLIT_RAW_BYTES=218

12/08/29 13:38:49 INFO mapred.JobClient:     Reduce input records=17298

我认为这是因为组合器还可以在先前组合步骤的输出上运行，因为您的组合器运行并生成新记录，然后将这些记录与来自映射器的其他记录组合。也可能是Map输出记录是在Combiner运行后计算出来的，意味着记录较少，因为有些已经被Combined了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么组合器输入记录的数量比映射的输出数量多？的相关文章

Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
在 Hadoop 中按文件中的值排序

我有一个文件其中每行包含一个字符串然后是一个空格然后是一个数字例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序然后将结果放入文件中为数字分配排名所以我的输出应该
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
如何跟踪hadoop中哪个数据块在哪个数据节点？

如果复制一个数据块会复制到哪个数据节点是否有任何工具可以显示复制块存在的位置如果您知道文件名则可以通过 DFS 浏览器查找转到您的 namenode Web 界面说浏览文件系统并导航到您感兴趣的文件在页面底部将列出文件中

随机推荐

Sencha Cmd v4.0.2.67 创建后台进程失败

我有一个使用 Sencha Command v4 0 2 67 生成的单页 ExtJS 应用程序我正在尝试使用 Sencha Command v4 0 2 67 和以下命令进行构建 sencha app refresh sencha ap
c# Abstract Generic Class继承自Abstract Generic Class

我正在尝试创建一个抽象泛型类它继承自另一个抽象泛型类这是我到目前为止所拥有的 public abstract class BaseClass public long Id get private set public BaseClass
Mule 处理策略 - 从同步流调用异步私有流

我试图从主同步流中调用异步私有流如下所示
自定义 web.config 部分处理程序

我之前设计过一个自定义部分处理程序但我遇到了一个我似乎无法想到的问题我有一个像这样的配置部分
什么时候使用 IoC 合适？

我了解 IoC 容器是什么并且一直在阅读结构图这项技术似乎很容易使用我的问题是使用 IoC 容器的适当粒度级别是多少我认为 IoC 的应用可能有以下级别打破所有对象之间的所有依赖关系当然有点过分了打破所有主要对象例如域对象
MongoDB：在没有并行性的情况下使用 MapReduce 有什么意义？

Quoting http www mongodb org display DOCS MapReduce MapReduce Parallelism http www mongodb org display DOCS MapReduce Ma
无法在 Docker 下运行 AWS SAM CLI

我正在尝试创建一个 Docker 镜像AWS SAM CLI https github com awslabs aws sam cli 但调用任何函数都会出现错误无法导入模块 index 我可以在 Docker 之外成功运行相同的测试用例
如何在Android应用程序中添加g729编解码器？

我正在开发一个用于拨打和接听电话的 SIP 应用程序我想在我的应用程序中添加 G729 编解码器目前我正在对开源项目进行分析SipDroid http code google com p sipdroid 如果我想让该应用程序支持 G7
ggplot2 每个方面的不同因子顺序

我正在尝试创建一个克利夫兰点图在本例中为 J 和 K 给出两个类别问题是元素 A B C 都在这两个类别中所以 R 一直放屁我做了一个简单的例子 x lt c LETTERS 1 10 LETTERS 1 3 LETTERS 11
如何以编程方式停止/退出/终止 dotnet core HostBuilder 控制台应用程序？

我正在尝试创建一个 dotnet 核心控制台应用程序该应用程序是一个简单的实用程序应用程序应该启动执行其操作并退出使用 Visual Studio 生成的标准控制台应用程序模板可以轻松实现但现在我们有了 HostBuilder 它
提取字符串中最后一个句点后的文本[重复]

这个问题在这里已经有答案了我意识到这个问题对于大多数正则表达式大师来说可能看起来非常简单但是回顾类似的问题并没有得出解决方案我有一个电子邮件地址向量称为email并希望在每个最后一个句点之后提取文本举例来说 email lt c
[BotFramework]：如何修复：在 V4 中开发的 C# WebChatBot 中，欢迎消息未向用户显示，但在模拟器中显示？
数组中 2 个百分位之间的平均元素

我有 2 个长度为 200 的向量例如 A 和 B 然后我使用以下方法找到数组 A 的每第二个百分位数 A1 prctile A 1 2 100 1 这样A1是一个长度为50的数组现在我想找到A1中每两个元素内的A元素的平均值即A的第
强制 Access 忘记链接表的用户名和密码

我有一个通过链接服务器连接到 SQL Server 的 MS Access 数据库链接表是使用修改后的添加的AttachDSNLessTable程序 stConnect ODBC DRIVER stDriverName SERVER st
Slick中的动态查询参数（排序）

我正在尝试将异常查询转换为平滑查询Play 2 3 示例之一 https github com playframework playframework tree 2 3 x samples scala computer database 但
Pyspark 可为空的 uuid 类型 uuid 但表达式的类型为字符变化

给定一个表格设计不可为 null 的 uuid列和a可为空的 uuid列如何使用 python 3 7 9 与 Pyspark 2 4 3 数据帧和 postgresql 42 2 18 jar 驱动程序进行插入 table df spa
验证错误消息中不包含字段名称

如果我有以下验证 validates inclusion of dob in gt Date new 1900 Time now years ago 18 to date message gt You must be 18 or older
从 Linux 内核模块的文件描述符获取文件名/路径？

在Linux内核模块中有没有一种方法可以从文件名路径中获取文件名路径 unsigned int fd 我知道这个答案如何从内核模块内的文件描述符获取文件名 https stackoverflow com questions 8250
抑制SQL Server SSDT中的一些警告

In SQL Server 数据工具 http msdn microsoft com en us library hh272686 我想抑制某些但不是全部 SQL71502 的出现具有对对象的未解析引用我知道我可以通过项目属性构建抑
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38

为什么组合器输入记录的数量比映射的输出数量多？

为什么组合器输入记录的数量比映射的输出数量多？ 的相关文章

随机推荐

热门标签

为什么组合器输入记录的数量比映射的输出数量多？的相关文章