MapReduce

配置 MapReduce 作业时使用多个 InputFormat 类

我想编写一个可以处理文本和 zip 文件的 MapReduce 应用程序为此我想使用不同的输入格式一种用于文本另一种用于 zip 可以这样做吗从 ChrisWhite的答案延伸一点你需要的是使用自定义InputFormat an

Java Hadoop MapReduce

getCacheFiles() 和 getLocalCacheFiles() 是否相同？

As 获取本地缓存文件 http hadoop apache org docs r2 3 0 api org apache hadoop mapreduce JobContext html getLocalCacheFiles 已被弃用我

Hadoop MapReduce HDFS distributedcache

更改 DataFrame.write() 的输出文件名前缀

通过 Spark SQL DataFrame write 方法生成的输出文件以 part 基本名称前缀开头例如 DataFrame sample 07 hiveContext table sample 07 sample 07 write

Java scala apachespark apachesparksql MapReduce

在 MongoDB 中使用 MapReduce 连接两个集合

我已经知道 MongoDB 不支持连接操作但我必须模拟一个 lookup 来自聚合框架 mapReduce范例我的两个收藏是 Employees sample id 1234 first name John last name Bush

MongoDB join MapReduce lookup NoSQL

Mongodb 选择所有字段按一个字段分组并按另一字段排序

我们收集了包含以下字段的消息 id messageId chainId createOn 1 1 A 155 2 2 A 185 3 3 A 225 4 4 B 226 5 5 C 228 6 6 B 300 我们想要选择符合以下条件的文

Java MongoDB MapReduce aggregationframework springdatamongodb

mrjob：该示例如何自动知道如何在文本文件中查找行？

我试图更好地理解 mrjob 的示例 from mrjob job import MRJob class MRWordFrequencyCount MRJob def mapper self line yield chars len lin

python MapReduce mrjob

在 Hadoop MapReduce 脚本中导入外部库

我正在 Amazon EMR Hadoop 实现之上运行 python MapReduce 脚本从主脚本中我得到了项目的相似性在善后步骤中我想将此输出拆分到每个项目的单独 S3 存储桶中因此每个项目存储桶都包含与其类似的项目列表

python amazonwebservices Hadoop MapReduce amazonemr

如何标准化/减少 mongoDB 中的时间数据？

我将详细的性能数据存储在 MongoDB 中每个集合都是一种性能报告每个文档都是阵列上端口在该时间点的测量结果 DateTime ISODate 2012 09 28T15 51 03 671Z array serial 12345 P

MongoDB MapReduce

如何获得按“值”值降序排序的映射/归约结果？如果也使用列表函数可以实现这一点？

我有视图地图并像这样减少地图 function doc if doc type var usersLength doc users length for var i 0 i lt usersLength i emit doc users

javascript MapReduce couchdb couchdbfuton

如何访问Reducer中的Mapper计数器值？

我想访问reducer中的myCounter my值 public static class Map extends Mapper

Java Hadoop MapReduce

hadoop 中的 -libjars 问题

我正在尝试在 Hadoop 上运行 MapReduce 作业但遇到错误并且不确定出了什么问题我必须传递我的映射器所需的库罐子我正在终端上执行以下命令 hadoop ubuntu usr local hadoop bin hadoop

Hadoop MapReduce

Hadoop 溢出故障

我目前正在开发一个使用 Hadoop 0 21 0 985326 以及一个由 6 个工作节点和一个头节点组成的集群的项目提交常规 MapReduce 作业失败但我不知道为什么以前有人见过这个异常吗 org apache hadoop

Hadoop MapReduce reduce

组合文件输入格式始终只启动一张地图 Hadoop 1.2.1

我正在尝试使用测试CombineFileInputFormat 来处理每个8 MB 的几个小文件 20 个文件我按照this中给出的示例进行操作blog http yaseminavcular blogspot in 2011 03 01

Hadoop MapReduce

Hadoop MapReduce 容器以非零退出代码 1 退出

我正在尝试运行一些 hadoop 程序来提取 Ubuntu 中一些摘要的关键字当我使用 Hadoop 运行程序时出现以下错误 WARN util NativeCodeLoader Unable to load native hadoop

Hadoop Lucene MapReduce

我从哪里开始分布式计算？

我对学习分布式计算技术感兴趣作为一名 Java 开发人员我可能愿意从Hadoop http hadoop apache org 您能推荐一些书籍教程文章吗也许你可以先阅读一些MapReduce和分布式计算相关的论文以更好地理解它

Hadoop MapReduce distributedcomputing

由于 inputStream 过早 EOF，Hadoop MapReduce 作业 I/O 异常

我使用以下命令运行 MapReduce 程序hadoop jar

Hadoop MapReduce RuntimeError EOF IOException

如何通过部分行键过滤HBase的Scan？

我有带有行键的 HBase 表其中包含文本 ID 和时间戳如下所示 string id1 1470913344067 string id1 1470913345067 string id2 1470913344067 string id

Java scala Hadoop MapReduce Hbase

无法获取系统目录 - hadoop

使用hadoop多节点设置 1个主站 1个从站在 master 上启动 start mapred sh 后我在 TT 日志中发现以下错误从属 org apache hadoop mapred TaskTracker 无法获取系统目录

Hadoop MapReduce hadooppartitioning

Hadoop 在一个文件中搜索另一个文件中的单词

我想构建一个 hadoop 应用程序它可以从一个文件读取单词并在另一个文件中搜索如果该单词存在它必须写入一个输出文件如果该单词不存在它必须写入另一个输出文件我在hadoop中尝试了一些例子我有两个问题两个文件每个大约 200

Hadoop MapReduce

Hadoop MapReduce 与 MPI（与 Spark、Mahout 与 Mesos） - 何时使用其中之一？

我是并行计算新手刚刚开始在 Amazon AWS 上尝试 MPI 和 Hadoop MapReduce 但我对何时使用其中一种而不是另一种感到困惑例如我看到的一个常见的经验法则可以总结为大数据非迭代容错 gt MapReduce

Hadoop parallelprocessing MapReduce MPI