MapReduce

MapReduce 的随机播放和排序

我通读了权威指南和网络上的其他一些链接包括here 我的问题是洗牌和排序到底发生在哪里根据我的理解它们发生在映射器和减速器上但一些链接提到改组发生在映射器上排序发生在减速器上有人可以确认我的理解是否正确吗如果没有他们可以提

Hadoop MapReduce

appengine-mapreduce 达到内存限制

我正在研究 appengine mapreduce 函数并修改了演示以适应我的目的基本上我有超过一百万行格式如下 userid time1 time2 我的目的是找到每个用户 ID 的 time1 和 time2 之间的差异但是当

python googleappengine memorymanagement MapReduce

Hadoop mapReduce 如何在 HDFS 中仅存储值

我用它来删除重复的行 public class DLines public static class TokenCounterMapper extends Mapper

Java Hadoop MapReduce

映射缩减组合器

我有一个带有映射器减速器和组合器的简单映射缩减代码映射器的输出被传递到组合器但是对于reducer来说传递的不是combiner的输出而是mapper的输出请帮忙 Code package Combiner import jav

Java Hadoop MapReduce

mapreduce.framework.name 在 mapred-site.xml 中的经典、本地之间有什么区别？

官方对该参数的描述如下 The runtime framework for executing MapReduce jobs Can be one of local classic or yarn 我知道 yarn 值适用于 MRv2 它将

Hadoop MapReduce hadoopyarn

为TaskTracker子进程配置内存的不同方式（Mapper和Reduce任务）

设置和设置有什么区别mapred job map 内存 mb and mapred child java opts使用 Xmx 来控制Mapper 和Reduce 任务使用的最大内存哪一个优先 Xmx指定分配的jvm的最大堆空间这是为对

memory Hadoop MapReduce task

为什么Spark要将Map阶段的输出保存到本地磁盘？

我试图深入了解 Spark Shuffle 过程当我开始阅读时我遇到了以下几点 Spark 完成后将 Map 任务 ShuffleMapTask 输出直接写入磁盘我想了解以下关于 Hadoop MapReduce 的内容如果Map

apachespark MapReduce RDD

Hadoop 减速器在内存中的值？

我正在编写一个 MapReduce 作业最终可能会在减速器中产生大量值我担心所有这些值都会立即加载到内存中底层实现是否Iterable

Hadoop MapReduce

使用 ArrayWritable 进行序列化似乎以一种有趣的方式工作

我正在与ArrayWritable 在某些时候我需要检查 Hadoop 如何序列化ArrayWritable 这是我通过设置得到的job setNumReduceTasks 0 0 IntArrayWritable 10f11b8 3 In

Java Hadoop MapReduce

在 CouchDB 中按键返回唯一值

有没有办法在 CouchDB 中执行以下操作一种通过给定键返回唯一不同值的方法 SELECT DISTINCT field FROM table WHERE key key1 key1 gt somevalue key1 gt some

couchdb MapReduce

将外部 jar 设置为 hadoop 类路径

我正在尝试将外部 jar 设置为 hadoop 类路径但到目前为止还没有运气我有以下设置 hadoop 版本Hadoop 2 0 6 alpha 颠覆https git wip us apache org repos asf bigto

Java Hadoop MapReduce bigtop

Hadoop 上理想的减速器数量是多少？

正如 Hadoop wiki 给出的计算理想的减速器数量是 0 95 或 1 75 节点 mapred tasktracker tasks maximum but 什么时候选择0 95 什么时候选择1 75 决定这个乘数时考虑的因素是什么

Hadoop MapReduce reducers

对于数组，在javascript中使用map()和reduce()代替forEach()是否更有效？

1 众所周知 map 和reduce 没有副作用如今我们的手机也有了多核那么使用它们是不是更有效率呢 2 另一方面在大多数浏览器上只有1个线程供js执行因此map 和reduce 是为服务器端脚本准备的吗我今天刚刚测试了这一点

javascript performance MapReduce

在 Hadoop Streaming 中生成单独的输出文件

仅使用映射器 Python 脚本而不使用化简器如何为每一行输出输出一个以键作为文件名的单独文件而不是输出长文件输入和输出格式类可以通过使用 inputformat 和 outputformat 命令行参数来替换如何执行此操作的一个

python Streaming Hadoop MapReduce

为什么我使用 iteratee IO 的 Mapreduce 实现（现实世界的 haskell）也会失败并出现“打开文件过多”

我正在实现一个 haskell 程序它将文件的每一行与文件中的每一行进行比较哪些可以实施单线程如下 distance Int gt Int gt Int distance a b a b a b sumOfDistancesOnSmal

loops Haskell MapReduce

windows下hadoop启动tasktracker出现问题

我正在尝试在Windows下使用hadoop 当我想启动tasktracker时遇到问题例如 bin start all sh 然后日志写道 2011 06 08 16 32 18 157 ERROR org apache hadoop

Java Windows Hadoop MapReduce

MapReduce2中如何基于vcore和内存创建容器？

我有一个由 1 个主节点名称节点辅助名称节点资源管理器和 2 个从节点数据节点节点管理器组成的小型集群我在master的yarn site xml中设置了 yarn scheduler minimum allocation

Hadoop MapReduce hadoopyarn

MapReduce 中的叉积

我想使用 Java MapReduce 在 Hadoop 中的两个数据集上执行昂贵的叉积操作例如我有数据集 A 和数据集 B 中的记录并且我希望输出中数据集 A 中的每条记录与数据集 B 中的每条记录相匹配我意识到它的输出大小是 A

Hadoop MapReduce

如何在 CouchDB 中使用 Map-Reduce 计算最大值？

我知道有内置的 stats提供 sum count min max 和 sumsqr 的函数我想知道的是如何以映射缩减方式计算最大值如果没有更多信息我无法想出一个可以工作的归约函数我唯一能想到的就是对值进行排序并选取第一个值我的地

couchdb MapReduce

Hadoop JobConf 类已弃用，需要更新示例

我正在编写 hadoop 程序我真的不想使用已弃用的类在网上的任何地方我都找不到更新的程序 org apache hadoop conf 配置班级代替 org apache hadoop mapred JobConf class p

Hadoop MapReduce Cloudera