MapReduce

我从哪里开始分布式计算？

我对学习分布式计算技术感兴趣作为一名 Java 开发人员我可能愿意从Hadoop http hadoop apache org 您能推荐一些书籍教程文章吗也许你可以先阅读一些MapReduce和分布式计算相关的论文以更好地理解它

Hadoop MapReduce distributedcomputing

由于 inputStream 过早 EOF，Hadoop MapReduce 作业 I/O 异常

我使用以下命令运行 MapReduce 程序hadoop jar

Hadoop MapReduce RuntimeError EOF IOException

如何通过部分行键过滤HBase的Scan？

我有带有行键的 HBase 表其中包含文本 ID 和时间戳如下所示 string id1 1470913344067 string id1 1470913345067 string id2 1470913344067 string id

Java scala Hadoop MapReduce Hbase

无法获取系统目录 - hadoop

使用hadoop多节点设置 1个主站 1个从站在 master 上启动 start mapred sh 后我在 TT 日志中发现以下错误从属 org apache hadoop mapred TaskTracker 无法获取系统目录

Hadoop MapReduce hadooppartitioning

Hadoop 在一个文件中搜索另一个文件中的单词

我想构建一个 hadoop 应用程序它可以从一个文件读取单词并在另一个文件中搜索如果该单词存在它必须写入一个输出文件如果该单词不存在它必须写入另一个输出文件我在hadoop中尝试了一些例子我有两个问题两个文件每个大约 200

Hadoop MapReduce

Hadoop MapReduce 与 MPI（与 Spark、Mahout 与 Mesos） - 何时使用其中之一？

我是并行计算新手刚刚开始在 Amazon AWS 上尝试 MPI 和 Hadoop MapReduce 但我对何时使用其中一种而不是另一种感到困惑例如我看到的一个常见的经验法则可以总结为大数据非迭代容错 gt MapReduce

Hadoop parallelprocessing MapReduce MPI

Apache Giraph - 无法在拆分主/工作模式下运行，因为一次只有 1 个任务

我使用 PageRank Benchmark 示例运行 Giraph 1 0 0 和 hadoop 2 2 0here https github com aching Giraph wiki Quick Start Guide 突然我得到了

Hadoop MapReduce giraph

MongoDB 汇总之前所有周的每周总和

我有一系列 MongoDB 文档一个示例文档是 createdAt Mon Oct 12 2015 09 45 20 GMT 0700 PDT year 2015 week 41 想象一下这些跨越一年中的所有几周并且同一周可能有很多我

MongoDB MapReduce mongodbquery aggregationframework

使用 Hadoop MapRed 排序

Well 我想知道如何在reduce 任务之后更改简单WordCount 程序的排序顺序我已经制作了另一个按值排序而不是按键排序的映射但它仍然按升序排序有没有一种简单的方法可以做到这一点更改排序顺序谢谢韦洛佐如果您使用的是旧版

Sorting Hadoop MapReduce

Hadoop - Map-Reduce 任务如何知道要处理文件的哪一部分？

我已经开始学习 hadoop 目前我正在尝试处理结构不太好的日志文件因为我通常用于 M R 键的值通常位于文件的顶部一旦所以基本上我的映射函数将该值作为键然后扫描文件的其余部分以聚合需要减少的值因此假日志可能如下所示 log

Hadoop MapReduce filesystems block HDFS

读取 Hadoop ArrayWritable 中包装的值

我是 Hadoop 和 Java 的新手我的映射器输出文本和 Arraywritable 我在读取 ArrayWritable 值时遇到问题 Unbale 将 get 值转换为整数附上映射器和减速器代码有人可以帮我纠正我的减速器代码以

Hadoop MapReduce

MongoDB MapReduce 就地更新如何

基本上我试图根据过去一小时内的分数对对象进行排序我正在尝试为数据库中的对象生成每小时的投票总和投票被嵌入到每个对象中对象架构如下所示 id ObjectId score int hourly score int lt need to

MapReduce MongoDB

使用 MapReduce 实施 PageRank

我正在尝试解决使用 MapReduce 实现 PageRank 的理论问题我有以下具有三个节点的简单场景 A B C 邻接矩阵在这里 A B C B A 例如 B 的 PageRank 等于 1 d N d PR A C A N numb

Algorithm MapReduce PageRank

MongoDB C# 驱动程序 2.0：如何从 MapReduceAsync 获取结果

MongoDB C 驱动程序 2 0 如何从 MapReduceAsync 获取结果我正在使用 MongoDB 版本 3 C 驱动程序 2 0 并将获得 MapReduceAsync 方法的结果我有这个集合用户 id 1 firstN

c MongoDB Asynchronous MapReduce mongodbcsharp20

Spark中“RDD可以存储在内存中”是什么意思？

Spark的介绍中说 RDD 可以在查询之间存储在内存中无需复制 http spark apache org research html 据我所知您必须使用手动缓存 RDD cache or persist 如果我不采取任何措施如下所

MapReduce apachespark

hadoop中的全局变量

我的程序遵循迭代映射归约方法如果满足某些条件则需要停止无论如何我是否可以设置一个可以分布在所有映射归约任务中的全局变量并检查全局变量是否达到完成条件像这样的东西 While Condition true Configurat

Hadoop MapReduce

Hadoop 映射器从 2 个不同的源输入文件读取

我有一个链接很多映射器和缩减器的工具在某些时候我需要合并之前映射缩减步骤的结果例如作为输入我有两个包含数据的文件 input a txt apple 10 orange 20 input b txt apple 5 orange 40

Hadoop MapReduce

Hadoop：如何将减速器输出合并到单个文件？ [复制]

这个问题在这里已经有答案了我知道 shell 中的 getmerge 命令可以完成这项工作但是如果我想在作业结束后通过 HDFS API for java 合并这些输出我该怎么办我真正想要的是 HDFS 上的单个合并文件我唯一能

Java Hadoop MERGE MapReduce HDFS

hadoop中如何实现排序？

我的问题是对文件中的值进行排序键和值都是整数需要维护排序值的键 key value 1 24 3 4 4 12 5 23 output 1 24 5 23 4 12 3 4 我正在处理大量数据并且必须在 hadoop 机器集群中运行代

Sorting Hadoop MapReduce

Hadoop、MapReduce - 多个输入/输出路径

在为 MapReduce 作业制作 Jar 时的输入文件中我使用 Hadoop local 命令我想知道是否有一种方法而不是专门指定输入文件夹中要在 MapReduce 作业中使用的每个文件的路径我是否可以只指定并传递输入文件夹中的

Java Hadoop MapReduce