Hadoop 减速器在内存中的值？

2023-11-26

我正在编写一个 MapReduce 作业，最终可能会在减速器中产生大量值。我担心所有这些值都会立即加载到内存中。

底层实现是否Iterable<VALUEIN> values根据需要将值加载到内存中？ Hadoop：权威指南似乎表明情况确实如此，但没有给出“权威”答案。

减速器输出将比输入值大得多，但我相信输出会根据需要写入磁盘。

你读的书是正确的。减速器并不将所有值存储在内存中。相反，当循环遍历 Iterable 值列表时，每个 Object 实例都会被重复使用，因此它在给定时间只保留一个实例。

例如，在下面的代码中，objs ArrayList 在循环后将具有预期的大小，但每个元素都将相同，因为每次迭代都会重新使用 Text val 实例。

public static class ReducerExample extends Reducer<Text, Text, Text, Text> {
public void reduce(Text key, Iterable<Text> values, Context context) {
    ArrayList<Text> objs = new ArrayList<Text>();
            for (Text val : values){
                    objs.add(val);
            }
    }
}

（如果由于某种原因您确实想对每个 val 采取进一步的操作，您应该制作一个深层副本，然后存储它。）

当然，即使是单个值也可能大于内存。在这种情况下，建议开发人员采取措施削减前面Mapper中的数据，使该值不要太大。

UPDATE：请参阅 Hadoop 权威指南第 2 版第 199-200 页。

This code snippet makes it clear that the same key and value objects are used on each 
invocation of the map() method -- only their contents are changed (by the reader's 
next() method). This can be a surprise to users, who might expect keys and vales to be 
immutable. This causes prolems when a reference to a key or value object is retained 
outside the map() method, as its value can change without warning. If you need to do 
this, make a copy of the object you want to hold on to. For example, for a Text object, 
you can use its copy constructor: new Text(value).

The situation is similar with reducers. In this case, the value object in the reducer's 
iterator are reused, so you need to copy any that you need to retain between calls to 
the iterator.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

Hadoop 减速器在内存中的值？的相关文章

如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
2n + 1 法定人数是什么意思？

我在描述 HBase 的 Zookeeper 配置时遇到过这个问题但我对这个术语并不熟悉 N 与我的 HBase 集群中的节点数量有关系吗或者我应该在 Zookeeper 集群中使用的节点数量 2f 1是指你所需要的可靠性可用性水平
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs

随机推荐

CAShapeLayer 的框架和边界

我正在研究CAShapeLayer 并尝试绘制非线性路径我想将框架设置为CAShapeLayer 所以我可以使用CGPathGetPathBoundingBox从中获取帧的方法CGPathRef 这是代码 CGMutablePathRef
什么是<？超级 T> 语法？ [复制]

这个问题在这里已经有答案了我无法理解以下语法 public class SortedList lt T extends Comparable lt super T gt gt extends LinkedList lt T gt 我看到类
Mockito junit 5 模拟构造函数

我想模拟构造函数并在调用构造函数时返回模拟对象这可以使用 powermockito 的 whenNew 方法来实现如下所示 PowerMockito whenNew ClassName class withAnyArguments th
从文本文件中删除特定行？

我需要从文本文件中删除确切的一行但我一生都无法弄清楚如何执行此操作任何建议或例子将不胜感激相关问题从文本文件中删除行的有效方法 C 如果要删除的行是基于该行的内容 string line null string line to de
d3.js 中子节点朝向多个侧面的树（类似于家谱）

var treeData name Device parent null var treeData2 name Device parent null document ready function var margin top 20 rig
SQLAlchemy @property 使用 dump_only 在 Marshmallow 中导致“未知字段”错误

我正在使用flask marshmallow marshmallow v3 0 0rc1 flask marshmallow 0 9 0 和flask sqlalchemy sqlalchemy 1 2 16 flask sqlalchem
矢量与数组性能

在另一个线程中我开始了关于向量和数组的讨论其中我主要扮演魔鬼代言人的角色按下按钮然而在这个过程中我偶然发现了一个让我有点困惑的测试用例我想对此进行一次真正的讨论关于我因扮演魔鬼代言人而受到的虐待开始一个真正的测试用例现
在 Powershell 中使用参数调用 Invoke-Expression

我用 C 编写了一个 powershell 模块其中包含一堆 cmdlet 例如 Add VM 这些 cmdlet 会访问 API 并拉回数据但为了与产品的 ssh CLI 保持一致我编写了一个名为 newtask 的函数它接受 a
Heroku Postgres：此连接已关闭

我开发了一个小型 Heroku Grails Postreg 应用程序部署后 20 分钟左右它就会正常工作之后我总是得到 This connection has been closed Stacktrace follows Heroku
从 Eclipse 查看本机代码

我有一个使用本机方法调用的 java 应用程序有没有办法在 eclipse 中查看此代码我可以获得这个本机库的源代码但不知道如何在 IDE 中链接如果有人告诉我如何调试这个本机方法也会很有帮助不是完整的答案但 Eclipse
如何在 Javascript 中使用循环生成事件处理程序？ [复制]

这个问题在这里已经有答案了例如我有 10 个从 AJAX 响应生成的 a 标签 a href b1 a a href b2 a a href b3 a a href b4 a a href b5 a a href b6 a a href
如何监听VueJS中的所有自定义事件？

在我的 VueJS 应用程序中我有一个 Vue 实例我将其用作事件总线用于在组件之间发送数据就是这样 import Vue from vue export const EventBus new Vue 然后在我的组件中导入 Even
将多个选择器与伪类关联

有没有办法让多个选择器与伪类关联换句话说我想让它在悬停或聚焦于锚点图像或按钮时它们周围会有一个特殊的边框我尝试过这个在黑暗中拍摄 a button img hover a button img focus border 2px
隐式使用 Scala 实现类型相等

我一直在阅读一些有关 Scala 类型级编程的内容主要是 Apocalisp 博客还有 Alexander Lehmann 的 YouTube 演讲我有点坚持我认为可能非常基本的事情即使用隐式比较两种类型如下所示 implicit
使用本机滚动时使滚动条在离子内容中可见

我在用overflow scroll true 让 ionic 使用原生滚动
如何获取sbt多项目构建中的子项目路径

我正在尝试获取 sbt 中多项目构建中子项目的位置但我只能获取根项目目录 lazy val copyToResources taskKey Unit copies the assembly jar private val rootLoca
iOS 设备和蓝牙

有谁知道外部蓝牙设备和 iPhone iPad 4S 及以上之间的最大数据传输速率我读到 BT3 0 中的增强数据速率为 24Mbs iPhone 可以支持吗使用 BT4 0 LTE 的最大数据量是多少多谢你们 iPhone iPa
使用 SQLDataReader 代替记录集

我对此很陌生并且有这个问题我可以使用 SQLDataReader 代替 Recordset 吗我想在 SQLDataReader 中实现以下结果 Dim dbConn As New ADODB Connection Dim rs As
AngularJS 和 jQuery 冲突

我用 AngularJs 和 jQuery 编写了一些代码只有一种方法有效要么是 AngularJs 要么是 jQuery jQuery 和 AngularJs 似乎互相冲突一旦我包含这两个库它们就不再正常工作如果我只包含其中之一
Hadoop 减速器在内存中的值？

我正在编写一个 MapReduce 作业最终可能会在减速器中产生大量值我担心所有这些值都会立即加载到内存中底层实现是否Iterable

Hadoop 减速器在内存中的值？

Hadoop 减速器在内存中的值？ 的相关文章

随机推荐

热门标签

Hadoop 减速器在内存中的值？的相关文章