shuffle阶段和combiner阶段有什么区别？

2023-12-22

我对 MapReduce 框架很困惑。我从不同的来源读到了这方面的内容，感到很困惑。顺便说一句，这是我对 MapReduce 作业的想法

1. Map()-->emit <key,value>  
2. Partitioner (OPTIONAL) --> divide
    intermediate output from mapper and assign them to different
    reducers
3. Shuffle phase used to make: <key,listofvalues>    
4. Combiner,    component used like a minireducer wich perform some
    operations on    datas and then pass those data to the reducer.
    Combiner is on local    not HDFS, saving space and time.    
5. Reducer, get the data from the    combiner, perform further
    operation(probably the same as the    combiner) then release the
    output.     
6.  We will have n outputs parts,    where n is the number
    of reducers

基本上是对的吗？我的意思是，我发现一些消息来源指出组合器是随机播放阶段，它基本上按键对每个记录进行分组......

组合器与洗牌阶段完全不同。你所描述的洗牌是错误的，这才是你困惑的根源。

洗牌只是从map复制key到reduce，与key生成无关。这是Reducer 的第一个阶段，其他两个阶段是排序和归约。

组合就像在本地执行一个减速器，用于每个映射器的输出。它基本上就像一个减速器（它也扩展了减速器类），这意味着，像减速器一样，它对映射器为同一键发出的本地值进行分组。

分区实际上，将映射输出键分配给特定的reduce 任务，但它不是可选的。使用您自己的实现覆盖默认的 HashPartitioner 是可选的。

我试图将这个答案保持在最低限度，但您可以在 Tom White 的《Hadoop：权威指南》一书中找到更多信息，正如 Azim 所建议的，以及一些相关的内容这个帖子 https://stackoverflow.com/a/22169760/2516301.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

combiners

partitioner

shuffle阶段和combiner阶段有什么区别？的相关文章

Hadoop setInputPathFilter错误

我正在使用 Hadoop 0 20 2 无法更改并且我想向我的输入路径添加一个过滤器数据如下 path1 test a1 path1 test a2 path1 train a1 path1 train a2 我只想处理所有文件trai
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce

随机推荐

CSS 中的 Rem 单位大小

我对 CSS 中的 rem 单位有疑问在我当前的项目中所有尺寸都是 rem 当我设置元素大小如 div 时显示的大小为 16 px x ems 但当 div 包含文本或标题时显示的大小为 19 x ems Chrome FF 和
Spring Web 应用程序初始化了两次

我发现我的 spring web 项目在 tomcat 上初始化了两次下面是打印的消息第一次 INFO Initializing Spring root WebApplicationContext INFO 2015 01 08 15
图像按钮选择器不起作用

我试图为 ImageView 设置选择器但它是不工作我的布局
从 Gradle 构建脚本生成 JPA2 元模型

我正在尝试为新项目设置 Gradle 构建脚本该项目将使用 JPA 2 以及Querydsl http www querydsl com On the Querydsl 参考文档的下一页 http source mysema com st
无法打开流：没有这样的文件或目录，是的！

我在需要一些文件时遇到问题 PHP 告诉我这些文件不存在但是当我扫描目录时它告诉我它确实存在我已将文件简化为require功能但仍然无法正常工作这是我的设置 root test php test test2 php sub test
UIScrollView ContentSize.height默认为0.0000？

我正在尝试使用 UIScrollView 创建动态表单但我注意到当我使用NSLog我的scrollView的contentSize height 0 00000我将滚动视图构建为故事板上屏幕的宽度和高度其中包含元素那么为什么会返回0呢
iOS 中的 Flutter audio_service 依赖问题

我正在添加audio service https pub dartlang org packages audio service用于在后台运行音频的包在 android 中它可以工作但作者尚未在 iOS 中实现因此在 iOS 中运行应
当继承相对行高时，它与元素的字体大小无关。为什么？我如何使其相对？

我有一个全局重置font size and line height to inherit对于每个元素 font size inherit line height iherit For html 我明确定义它们 html font size
与 NaN 不同，为什么浮点无穷大相等？

为什么无穷大比较不遵循应用于 NaN 的逻辑这段代码打印出来false三次 double a Double NaN double b Double NaN System out println a b false System out p
如何在swift中实现关键字关联功能？

例如当我输入几个字母时相应的单词会自动出现然后我可以选择它们但这样的功能如何实现呢我应该使用哪种 UI 元素我是否还应该将世界上所有国家都输入到cord数据中以便得到相应的结果您显示的图像似乎只是一个 UITableView
使用 Keras 1.2.2 和 MXnet 后端重置 GPU 内存

我正在使用 AWS p2 x8large 并尝试使用 k 折交叉验证来评估我的模型第一次重复后我的 GPU 内存已满当我尝试再次训练时我收到了 cuda 内存问题我的问题是如何在循环内重置 GPU 内存我使用了 K clear
使用 PyCharm 的 Profiler 时出现“导入错误：无法导入名称 cbook”

我正在尝试运行 PyCharm 分析器但收到以下错误消息 Traceback most recent call last File home b3053674 ProgramFiles pycharm 2017 1 4 helpers p
finditem() 找不到菜单，并出现 NullPointerException

我在更改选项菜单上的某些属性时陷入困境onCreateOptionsMenu 看起来 findItem 返回 null 即使我很确定对菜单项的引用是正确的我的代码如下所示 Override public boolean onCreateO
构建 Angular CLI 时出错

我在尝试构建 Angular 2 项目时遇到问题当我打电话时ng build 构建器正在将路由路径验证为模块并表示它不存在错误无法从 C Users bruno martins git disciples ui src app app
为什么即使在我调用 Thread.currentThread().interrupt() 之后，thread.isInterrupted() 仍返回 false

当我运行这个测试时为什么sleepThread isInterrupted 总是返回 false 我必须执行Thread currentThread interrupt 当捕获一个时设置中断标志InterruptedException T
React - 表单提交后清除输入值

我遇到了一个相当愚蠢的问题我正在创建我的第一个 React 应用程序并且遇到了一个小问题在提交表单后我无法清除我的输入值尝试用谷歌搜索这个问题在这里找到了一些类似的线程但我无法解决这个问题我不想更改组件应用程序的状态只是将
加载多个.dta 文件

我有一个包含超过 500 个 dta 文件的文件夹我想将其中一些文件加载到单个 R 对象中我的 dta 文件有一个由四个部分组成的通用名称两个字母四个数字 y dta 例如名称可以是 de2015y dta 或 fr2008y
急切执行：梯度计算

我想知道为什么这个非常简单的梯度计算不能正常工作它实际上是生成一个 None None 向量显然这不是期望的输出 import tensorflow as tf tf enable eager execution a tf const
如何从应用程序内部检测 JVM 垃圾收集周期？

我只是想知道是否有一种方法可以从正在 gc 的代码 JVM 中检测垃圾收集周期时机不起作用因此事件发生在实际周期之前还是之后并不重要在周期期间发生事件似乎不太可能而且也可能很危险具体取决于所使用的 GC 实现我能找到的只是可以
shuffle阶段和combiner阶段有什么区别？

我对 MapReduce 框架很困惑我从不同的来源读到了这方面的内容感到很困惑顺便说一句这是我对 MapReduce 作业的想法 1 Map gt emit

shuffle阶段和combiner阶段有什么区别？

shuffle阶段和combiner阶段有什么区别？ 的相关文章

随机推荐

热门标签

shuffle阶段和combiner阶段有什么区别？的相关文章