MapReduce

我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException

我的 cdh5 2 集群运行 hbase MR 作业时出现问题例如我将 hbase 类路径添加到 hadoop 类路径中 vi etc hadoop conf hadoop env sh 添加行 export HADOOP CLASSP

Java Hadoop MapReduce Hbase clouderacdh

如何用hadoop实现自连接/叉积？

对成对的项目进行评估是常见的任务示例重复数据删除协同过滤相似项目等这基本上是具有相同数据源的自连接或叉积要进行自连接您可以遵循减少端连接模式映射器将连接外键作为键发出将记录作为值发出因此假设我们想要对以下数据的

Hadoop MapReduce selfjoin

我如何调试 Hadoop MapReduce [重复]

这个问题在这里已经有答案了我正在尝试构建一个地图缩减作业它运行完成但最后呈现奇怪的数据当我尝试使用 system out println debug data 调试它时它没有显示在屏幕上使用 java API 生成外部日志文件

Java debugging logging Hadoop MapReduce

Spark 在 Hbase 的 InputSplit 期间给出空指针异常

我正在使用 Spark 1 2 1 Hbase 0 98 10 和 Hadoop 2 6 0 从 hbase 检索数据时出现空点异常找到下面的堆栈跟踪 sparkDriver akka actor default dispatcher 2

scala Hadoop MapReduce Hbase apachespark

MapReduce - 如何按值对减少输出进行排序

如何按值降序对减速器输出进行排序我正在开发一个必须返回最常听的歌曲的应用程序因此歌曲必须按照收听次数排序我的应用程序以这种方式工作 Input songname userid boolean MapOutput songname u

Sorting Hadoop MapReduce

Hadoop 减少多种输入格式

我在 HDFS 中有两个数据格式不同的文件如果我需要减少两个数据文件那么作业设置会是什么样子例如想象一下常见的字数统计问题在一个文件中使用空格作为世界分隔符在另一个文件中使用下划线在我的方法中我需要针对各种文件格式使用不同的映

Hadoop MapReduce format

MapReduce：ChainMapper 和 ChainReducer

我需要将 MapReduce jar 文件拆分为两个作业以获得两个不同的输出文件每个文件来自两个作业的每个减速器我的意思是第一个作业必须生成一个输出文件该文件将作为链中第二个作业的输入我在 hadoop 版本 0 20 中读到了一

Hadoop MapReduce

Apache Pig：无法运行我自己的pig.jar 和pig-withouthadoop.jar

我有一个运行 Hadoop 0 20 2 和 Pig 0 10 的集群我有兴趣向 Pig 的源代码添加一些日志并在集群上运行我自己的 Pig 版本我做了什么使用 ant 命令构建项目有pig jar和pig without had

Java Hadoop MapReduce apachepig

Hadoop 中的分割大小与块大小

Hadoop 中的分割大小和块大小之间有什么关系当我读到this http willddy github io 2012 08 25 Hadoop Split and Block html 分割大小必须是块大小的n倍 n是整数并且n gt

Hadoop MapReduce HDFS

MongoDB 根据 _id 统计每分钟新文档数

我想创建每分钟存储多少新文档的统计数据由于具有标准 ObjectID 的 id 字段已经包含文档创建的时间戳我认为应该可以以某种方式使用它在 Stackoverflow 上我发现了以下映射归约代码可以在有用于创建数据的专用字段时完

MongoDB MapReduce

在spark中设置textinputformat.record.delimiter

在 Spark 中可以设置一些 hadoop 配置设置例如 System setProperty spark hadoop dfs replication 1 这有效复制因子设置为 1 假设是这种情况我认为这种模式在常规 hado

scala Hadoop MapReduce apachespark

Cloudera 5.1下作业在LocalJobRunner中保持运行

需要一些快速帮助我们的作业在 MapR 下运行良好但是当我们在 Cloudera 5 1 上启动相同的作业时它继续以本地模式运行我确信这是某种配置问题它是哪个配置设置 14 08 22 12 16 58 INFO mapreduc

Hadoop MapReduce Cloudera clouderacdh

CouchDB 视图：MapReduce 中可以接受多少处理？

我一直在尝试使用 CouchDB 进行 MapReduce 一些示例显示了映射归约函数中可能存在的一些繁重逻辑在一种特殊情况下他们在映射内执行 for 循环在发出您选择的文档之前 MapReduce 是否会在每个可能的文档上运行如果

database NoSQL couchdb MapReduce

如何在 couchdb 中索引多维数组

我有一个多维数组我想用 CouchDB 对其进行索引实际上使用 Cloudant 我的用户有他们所属团队的列表我想搜索找到该团队的每个成员因此获取所有具有 ID 为 79d25d41d991890350af672e0b76faed

json database MapReduce couchdb cloudant

STDIN 或文件作为 Hadoop 环境中的映射器输入？

因为我们需要将一堆文件读入映射器在非 Hadoop 中环境我用的os walk dir and file open path mode 读入每个文件然而在 Hadoop 环境中当我读到 HadoopStreaming 转换将

python Hadoop MapReduce

在 Google App Engine 中使用 mapreduce 的简单反例

我对 GAE 中 MapReduce 支持的当前状态有些困惑根据文档http code google com p appengine mapreduce http code google com p appengine mapreduce

python googleappengine MapReduce

如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？

有人可以解释 MapReduce 如何与 Cassandra 6 配合使用吗我已经阅读了字数统计示例但我不太明白 Cassandra 端与客户端端发生的情况 https svn apache org repos asf cassan

MapReduce cassandra apachepig

Spark：按元组/列中的多个值对 RDD 进行排序

所以我有一个RDD如下 RDD String Int String 举个例子 b 1 a a 1 b a 0 b a 0 a 最终结果应该类似于 a 0 a a 0 b a 1 b b 1 a 我该怎么做这样的事情尝试这个 rdd sor

apachespark MapReduce RDD

将 Mongo 中的某些字段从字符串转换为数组

我有一个文档集合其中标签字段从空格分隔的标签列表切换为单个标签数组我想将以前的空格分隔字段更新为像新传入数据一样的数组我也遇到了 type 选择器的问题因为它将类型操作应用于单个数组元素即字符串因此按类型过滤只会返回所有内容

MongoDB MapReduce mongodbquery aggregationframework

Mapfile 作为 MapReduce 作业的输入

我最近开始使用 Hadoop 在使用 Mapfile 作为 MapReduce 作业的输入时遇到问题以下工作代码在 hdfs 中编写一个名为 TestMap 的简单 MapFile 其中包含三个 Text 类型的键和三个 BytesWri

Java Hadoop MapReduce