Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
MapReduce 的随机播放和排序
我通读了权威指南和网络上的其他一些链接 包括here 我的问题是 洗牌和排序到底发生在哪里 根据我的理解 它们发生在映射器和减速器上 但一些链接提到改组发生在映射器上 排序发生在减速器上 有人可以确认我的理解是否正确吗 如果没有 他们可以提
Hadoop
MapReduce
appengine-mapreduce 达到内存限制
我正在研究 appengine mapreduce 函数 并修改了演示以适应我的目的 基本上我有超过一百万行 格式如下 userid time1 time2 我的目的是找到每个用户 ID 的 time1 和 time2 之间的差异 但是 当
python
googleappengine
memorymanagement
MapReduce
Hadoop mapReduce 如何在 HDFS 中仅存储值
我用它来删除重复的行 public class DLines public static class TokenCounterMapper extends Mapper
Java
Hadoop
MapReduce
映射缩减组合器
我有一个带有映射器 减速器和组合器的简单映射缩减代码 映射器的输出被传递到组合器 但是对于reducer来说 传递的不是combiner的输出 而是mapper的输出 请帮忙 Code package Combiner import jav
Java
Hadoop
MapReduce
mapreduce.framework.name 在 mapred-site.xml 中的经典、本地之间有什么区别?
官方对该参数的描述如下 The runtime framework for executing MapReduce jobs Can be one of local classic or yarn 我知道 yarn 值适用于 MRv2 它将
Hadoop
MapReduce
hadoopyarn
为TaskTracker子进程配置内存的不同方式(Mapper和Reduce任务)
设置和设置有什么区别mapred job map 内存 mb and mapred child java opts使用 Xmx 来控制Mapper 和Reduce 任务使用的最大内存 哪一个优先 Xmx指定分配的jvm的最大堆空间 这是为对
memory
Hadoop
MapReduce
task
为什么Spark要将Map阶段的输出保存到本地磁盘?
我试图深入了解 Spark Shuffle 过程 当我开始阅读时 我遇到了以下几点 Spark 完成后将 Map 任务 ShuffleMapTask 输出直接写入磁盘 我想了解以下关于 Hadoop MapReduce 的内容 如果Map
apachespark
MapReduce
RDD
Hadoop 减速器在内存中的值?
我正在编写一个 MapReduce 作业 最终可能会在减速器中产生大量值 我担心所有这些值都会立即加载到内存中 底层实现是否Iterable
Hadoop
MapReduce
使用 ArrayWritable 进行序列化似乎以一种有趣的方式工作
我正在与ArrayWritable 在某些时候我需要检查 Hadoop 如何序列化ArrayWritable 这是我通过设置得到的job setNumReduceTasks 0 0 IntArrayWritable 10f11b8 3 In
Java
Hadoop
MapReduce
在 CouchDB 中按键返回唯一值
有没有办法在 CouchDB 中执行以下操作 一种通过给定键返回唯一 不同值的方法 SELECT DISTINCT field FROM table WHERE key key1 key1 gt somevalue key1 gt some
couchdb
MapReduce
将外部 jar 设置为 hadoop 类路径
我正在尝试将外部 jar 设置为 hadoop 类路径 但到目前为止还没有运气 我有以下设置 hadoop 版本Hadoop 2 0 6 alpha 颠覆https git wip us apache org repos asf bigto
Java
Hadoop
MapReduce
bigtop
Hadoop 上理想的减速器数量是多少?
正如 Hadoop wiki 给出的 计算理想的减速器数量是 0 95 或 1 75 节点 mapred tasktracker tasks maximum but 什么时候选择0 95 什么时候选择1 75 决定这个乘数时考虑的因素是什么
Hadoop
MapReduce
reducers
对于数组,在javascript中使用map()和reduce()代替forEach()是否更有效?
1 众所周知 map 和reduce 没有副作用 如今 我们的手机也有了多核 那么使用它们是不是更有效率呢 2 另一方面 在大多数浏览器上只有1个线程供js执行 因此map 和reduce 是为服务器端脚本准备的吗 我今天刚刚测试了这一点
javascript
performance
MapReduce
在 Hadoop Streaming 中生成单独的输出文件
仅使用映射器 Python 脚本 而不使用化简器 如何为每一行输出输出一个以键作为文件名的单独文件 而不是输出长文件 输入和输出格式类可以通过使用 inputformat 和 outputformat 命令行参数来替换 如何执行此操作的一个
python
Streaming
Hadoop
MapReduce
为什么我使用 iteratee IO 的 Mapreduce 实现(现实世界的 haskell)也会失败并出现“打开文件过多”
我正在实现一个 haskell 程序 它将文件的每一行与文件中的每一行进行比较 哪些可以实施单线程如下 distance Int gt Int gt Int distance a b a b a b sumOfDistancesOnSmal
loops
Haskell
MapReduce
windows下hadoop启动tasktracker出现问题
我正在尝试在Windows下使用hadoop 当我想启动tasktracker时遇到问题 例如 bin start all sh 然后日志写道 2011 06 08 16 32 18 157 ERROR org apache hadoop
Java
Windows
Hadoop
MapReduce
MapReduce2中如何基于vcore和内存创建容器?
我有一个由 1 个主节点 名称节点 辅助名称节点 资源管理器 和 2 个从节点 数据节点 节点管理器 组成的小型集群 我在master的yarn site xml中设置了 yarn scheduler minimum allocation
Hadoop
MapReduce
hadoopyarn
MapReduce 中的叉积
我想使用 Java MapReduce 在 Hadoop 中的两个数据集上执行昂贵的叉积操作 例如 我有数据集 A 和数据集 B 中的记录 并且我希望输出中数据集 A 中的每条记录与数据集 B 中的每条记录相匹配 我意识到它的输出大小是 A
Hadoop
MapReduce
如何在 CouchDB 中使用 Map-Reduce 计算最大值?
我知道有内置的 stats提供 sum count min max 和 sumsqr 的函数 我想知道的是如何以映射缩减方式计算最大值 如果没有更多信息 我无法想出一个可以工作的归约函数 我唯一能想到的就是对值进行排序并选取第一个值 我的地
couchdb
MapReduce
Hadoop JobConf 类已弃用,需要更新示例
我正在编写 hadoop 程序 我真的不想使用已弃用的类 在网上的任何地方我都找不到更新的程序 org apache hadoop conf 配置 班级 代替 org apache hadoop mapred JobConf class p
Hadoop
MapReduce
Cloudera
«
1 ...
15
16
17
18
19
20
21
...27
»