MapReduce

mongodb 聚合随机化（shuffle）结果

我正在浏览一堆 mongo 文档但找不到洗牌或随机化结果内容的可能性有没有特别是对于聚合框架本身来说实际上并没有任何本地方法因为还没有可用的运算符来执行诸如生成随机数之类的操作因此无论您可能投射一个字段进行排序的任何匹配都不

MongoDB MapReduce shuffle aggregationframework

java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0

Hadoop MapReduce flume

如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe

Hadoop MapReduce

java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中

Java Hadoop MapReduce distributedcache

远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c

Hadoop MapReduce HDFS

如何在hadoop/map reduce中创建固定行数的输出文件？

假设我们有 N 个具有不同行数的输入文件我们需要生成输出文件使得每个输出文件恰好有 K 行最后一个输出文件可以有是否可以使用单个 MR 作业来完成此操作我们应该打开文件以便在reducer中显式写入输出中的记录应该被打乱 tha

Hadoop MapReduce

Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案

Hadoop MapReduce hive

使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado

Hadoop MapReduce NLP

MapReduce 排序和洗牌如何工作？

我正在使用 yelps MRJob 库来实现映射缩减功能我知道 MapReduce 有一个内部排序和洗牌算法它根据键对值进行排序所以如果我在地图阶段后得到以下结果 1 24 4 25 3 26 我知道排序和洗牌阶段将产生以下输出 1

Hadoop MapReduce mrjob

映射减少计数示例

我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例一个标准mapreduce program 我希望map函数收集一些信息并返回形成如下的reduce函数map

Java Hadoop MapReduce

Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55

Hadoop MapReduce Cloudera hadoopyarn

hadoop map reduce 中的错误处理

根据文档有几种方法可以在 MapReduce 中执行错误处理以下是一些 A 使用枚举的自定义计数器每个失败记录的增量 b 记录错误并稍后分析计数器给出失败记录的数量然而为了获取失败记录的标识符可能是其唯一键以及发生异常的详细

Hadoop errorhandling MapReduce DistributedSystem

如何读取 RCFile

我正在尝试将一个小的 RCFile 约 200 行数据读入 HashMap 中以进行 Map Side 连接但是在将文件中的数据变为可用状态时遇到了很多麻烦这是我到目前为止所拥有的其中大部分来自这个例子 http sumit1001

Java Hadoop MapReduce

如何处理 YARN MapReduce 作业的容器故障？

YARN 中如何处理软件硬件故障具体来说如果容器发生故障崩溃会发生什么容器和任务失败由节点管理器处理当容器失败或死亡时节点管理器会检测到失败事件并启动一个新容器来替换失败的容器并在新容器中重新启动任务执行如果应用程序主机发

Hadoop MapReduce hadoopyarn Hadoop2

Hadoop 性能

我安装了hadoop 1 0 0并尝试了字数统计示例单节点集群完成时间为 2 分 48 秒然后我尝试了标准的 Linux 字数统计程序该程序在同一组 180 kB 数据上运行只需 10 毫秒是我做错了什么还是 Hadoop 非

performance Hadoop MapReduce

两个相等的组合键不会到达同一个减速器

我正在使用 MapReduce 框架用 Java 制作 Hadoop 应用程序我仅使用文本键和值进行输入和输出在减少最终输出之前我使用组合器进行额外的计算步骤但我有一个问题钥匙没有进入同一个减速器我在组合器中创建并添加键值对

Java Hadoop MapReduce combiners

Spark：JavaRDD 到 JavaPairRDD<>

我有一个JavaRDD

Java MapReduce apachespark

CouchDB“加入”两个文档

我有两个看起来有点像这样的文档 Doc id AAA creator id data DataKey id credits left 500 times used 0 data id AAA 我想要做的是创建一个视图它允许我传递 Data

View NoSQL couchdb MapReduce

FAILED 错误：java.io.IOException：所有收集器的初始化失败

我在运行 MapReduce WordCount 作业时遇到一些错误错误 java io IOException 所有收集器的初始化失败的最后一个收集器中的错误是 class wordcount wordmapper at org a

Hadoop MapReduce hadoopyarn

Spark 无法再执行作业。执行器创建目录失败

我们已经有一个小型 Spark 集群运行了一个月它已经成功执行了作业或者让我为该集群启动一个 Spark shell 无论我向集群提交作业还是使用 shell 连接到集群错误总是相同的 root SPARK HOME bin spar

Hadoop MapReduce apachespark