Hadoop分区器

2024-02-14

我想问一下Hadoop分区器，它是在Mappers中实现的吗？如何衡量使用默认哈希分区器的性能 - 是否有更好的分区器来减少数据偏差？

Thanks

分区器不在映射器内。

以下是每个映射器中发生的过程 -

每个映射任务将其输出写入循环缓冲存储器（而不是磁盘）。当缓冲区达到阈值时，后台线程开始将内容溢出到磁盘。 [缓冲区大小由mapreduce.task.io.sort.mb属性控制，默认为100MB，溢出由mapreduce.io.sort.spill.percent属性控制，默认为0.08或80%]。在溢出到磁盘之前数据根据它们将被发送到的减速器进行分区在每个分区内按键执行内存排序
对每种排序的结果运行组合器函数（减少写入和传输的数据，这需要专门完成）
压缩（可选）[mapred.compress.map.output=true; mapred.map.output.compression.codec=编解码器名称]
写入磁盘和输出文件的分区可通过 HTTP 供减速器使用。

下面是每个Reducer中发生的过程

现在，每个Reducer从每个映射器收集所有文件，它进入排序/合并阶段（排序已经在映射器端完成），该阶段合并所有映射输出并保持排序顺序。
在reduce 阶段，为排序输出中的每个键调用reduce 函数。

下面是代码，说明了键分区的实际过程。 getpartition() 将返回特定键必须根据其哈希码发送到的分区号/化简器。每个键的哈希码必须是唯一的，并且在整个环境中，键的哈希码应该是唯一且相同的。为此，hadoop 为其密钥实现了自己的哈希码，而不是使用 java 默认哈希码。

 Partition keys by their hashCode(). 

        public class HashPartitioner<K, V> extends Partitioner<K, V> {
        public int getPartition(K key, V value,
                                 int numReduceTasks) {
           return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
       }

       }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

partitioner

Hadoop分区器的相关文章

无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
2017 年在 OS X 上从源代码构建 Apache Hadoop

到目前为止我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢

随机推荐

Javascript：根据其内容选择选项

基本上是这样但是在纯 JavaScript 中如何使用 Nokogiri 根据选择标签的内容获取选择标签的值 https stackoverflow com questions 2346257 how to get value of
判断 NSNumber 是否为 NaN

如何判断可可是否NSNumber表示 NaN 不是一个数字例如当我解析具有无效非数字内容的字符串时就会出现这种情况所以我发现类属性 NSDecimalNumber notANumber 就是为了这个目的在某些语言中 NaN
按 ID DESC 排序

我试图让博客页面按降序给出的自动递增唯一 ID 对其条目进行排序但它似乎不允许这样做尽管 SQL 请求如下所示但它始终按升序显示 SELECT FROM news blog ORDER BY news id DESC 是不是因为新闻i
我可以配置 NLog 在日志达到一定限制后修剪日志吗？

NLog 可以配置为在日志文件达到一定文件大小后自动修剪修剪日志文件吗我认为您最接近的目标是使用archiveAboveSize属性让 NLog 在日志文件达到一定大小时对其进行归档通过将其与maxArchiveFiles属性您可以
请解释一下Labeled statements的用法

Java 中标记语句的唯一用途是中断和继续吗您什么时候在程序中使用过标签语句抱歉代码片段已被删除我正在拆分问题 JLS 14 7 标签语句 https docs oracle com javase specs jls se14 ht
ASP.NET MVC 自定义 ModelMetadataProvider 和 ModelValidatorProvider

在我的 ASP NET MVC 应用程序中我在数据库中定义了基于元数据的模型我有一个定义数据元数据的自定义对象并使用数据集进行 DTO 为了显示这一点我计划编写一个自定义 ModelMetadataProvider 和 ModelV
在 PyCUDA 中迭代二维数组

我试图在 PyCUDA 中迭代一个 2D 数组但最终得到了重复的数组值我最初抛出一个小的随机整数数组它按预期工作但是当我向它抛出图像时我一遍又一遍地看到相同的值这是我的代码 img np random randint 20 si
为什么这个查询使用where而不是索引？

EXPLAIN EXTENDED SELECT board FROM board WHERE board category id 5 AND board board id 0 AND board display 1 ORDER BY boa
应用 Angular2 ngModel 后格式化输入值

我正在尝试创建一个指令将输入值格式化为货币格式我能够在焦点和模糊上做我必须做的事情并且在 ngOnInit 钩子和任何其他钩子中输入元素尚未应用任何值如何监视输入的值并在应用初始值时对其进行格式化这是我的指令 impo
CloudFormation：模板 RDS Mysql 以创建数据库、表、用户或加载架构

我正在尝试使用 CloudFormation 找出一些用例第一种情况是拥有现有的 AWS RDS MySQL 服务器如何通过 CloudFormation 模板创建数据库表和用户帐户在查看了 Cloudformation 文档之后
VB.NET 中的 GoTo 语句和替代语句

我在另一个论坛上发布了一个代码片段寻求帮助人们向我指出使用GoTo语句是非常糟糕的编程习惯我想知道为什么会不好呢有什么替代方案GoTo在 VB NET 中是否可以使用通常被认为是更好的实践考虑下面的这个片段用户必须输入他们的出生
Pylab - “模块”对象没有属性“图”

我正在尝试使用 Tkinter 创建视图因此我也使用 pylab 我的问题是我收到一条错误消息属性错误模块对象没有属性图错误来自这行代码 self fig FigureCanvasTkAgg pylab figure maste
加载 hazelcast 的所有实现

我正在尝试在多个节点上使用 hazelcast 服务器我已经在地图存储实现中实现了全部加载我想知道这是否应该只在服务器节点上启用还是在所有节点上启用如果我在所有节点上部署相同的内容这是否不会创建不需要的数据库读取操作如果我需要仅在
弹出到根视图控制器，表视图不会发生动画崩溃

我在标签栏控制器中有 3 个视图控制器单击任何选项卡都会在导航堆栈中加载其根视图控制器例如选项卡 1 选项卡 2 和选项卡 3 导航堆栈中的第二个视图控制器 tab2VC2 有一个 tableView 单击 tab2 在 tab2 中显
Django 可以与 py2exe 一起使用吗？

我们想为大众市场创建一个 Django Intranet 应用程序我们只需要支持 Windows 用户并且 Windows 管理员或技术用户需要非常轻松地进行部署请记住大多数 Windows 管理员用户对 Python 等缺
如果“else”无论如何都会发生，是否应该声明？ [复制]

这个问题在这里已经有答案了可能的重复在不需要的情况下应该保留还是删除 else https stackoverflow com questions 3533779 should else be kept or dropped in ca
是否有一种 Objective-C 特定方法来计算整数中的位数

我想计算 Objective c 中 32 位整数中设置为 1 的位有些语言将其作为单个调用 Java 有 Integer bitCount C 有时有 popcount SQL 有 BIT COUNT Objective C 有等效的吗
Servlet 对 AJAX 请求的响应为空

我正在使用 javascript 向 servlet 发送 AJAX 请求 Servlet 确实正在回复但响应标头为空响应文本也为空当我尝试使用相同的客户端代码将请求发送到 php 页面时它工作正常这是两个客户端您可以尝试它们并
如何解析隐藏的输入值

我在这里或谷歌上找不到与解析隐藏输入值相关的任何内容例如这里的这段代码我正在尝试解析 40 个字符的密钥
Hadoop分区器

我想问一下Hadoop分区器它是在Mappers中实现的吗如何衡量使用默认哈希分区器的性能是否有更好的分区器来减少数据偏差 Thanks 分区器不在映射器内以下是每个映射器中发生的过程每个映射任务将其输出写入循环缓冲存储器而不是

Hadoop分区器

Hadoop分区器 的相关文章

随机推荐

热门标签

Hadoop分区器的相关文章