MapReduce

使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado

Hadoop MapReduce NLP

MapReduce 排序和洗牌如何工作？

我正在使用 yelps MRJob 库来实现映射缩减功能我知道 MapReduce 有一个内部排序和洗牌算法它根据键对值进行排序所以如果我在地图阶段后得到以下结果 1 24 4 25 3 26 我知道排序和洗牌阶段将产生以下输出 1

Hadoop MapReduce mrjob

映射减少计数示例

我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例一个标准mapreduce program 我希望map函数收集一些信息并返回形成如下的reduce函数map

Java Hadoop MapReduce

Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55

Hadoop MapReduce Cloudera hadoopyarn

hadoop map reduce 中的错误处理

根据文档有几种方法可以在 MapReduce 中执行错误处理以下是一些 A 使用枚举的自定义计数器每个失败记录的增量 b 记录错误并稍后分析计数器给出失败记录的数量然而为了获取失败记录的标识符可能是其唯一键以及发生异常的详细

Hadoop errorhandling MapReduce DistributedSystem

如何读取 RCFile

我正在尝试将一个小的 RCFile 约 200 行数据读入 HashMap 中以进行 Map Side 连接但是在将文件中的数据变为可用状态时遇到了很多麻烦这是我到目前为止所拥有的其中大部分来自这个例子 http sumit1001

Java Hadoop MapReduce

如何处理 YARN MapReduce 作业的容器故障？

YARN 中如何处理软件硬件故障具体来说如果容器发生故障崩溃会发生什么容器和任务失败由节点管理器处理当容器失败或死亡时节点管理器会检测到失败事件并启动一个新容器来替换失败的容器并在新容器中重新启动任务执行如果应用程序主机发

Hadoop MapReduce hadoopyarn Hadoop2

Hadoop 性能

我安装了hadoop 1 0 0并尝试了字数统计示例单节点集群完成时间为 2 分 48 秒然后我尝试了标准的 Linux 字数统计程序该程序在同一组 180 kB 数据上运行只需 10 毫秒是我做错了什么还是 Hadoop 非

performance Hadoop MapReduce

两个相等的组合键不会到达同一个减速器

我正在使用 MapReduce 框架用 Java 制作 Hadoop 应用程序我仅使用文本键和值进行输入和输出在减少最终输出之前我使用组合器进行额外的计算步骤但我有一个问题钥匙没有进入同一个减速器我在组合器中创建并添加键值对

Java Hadoop MapReduce combiners

Spark：JavaRDD 到 JavaPairRDD<>

我有一个JavaRDD

Java MapReduce apachespark

CouchDB“加入”两个文档

我有两个看起来有点像这样的文档 Doc id AAA creator id data DataKey id credits left 500 times used 0 data id AAA 我想要做的是创建一个视图它允许我传递 Data

View NoSQL couchdb MapReduce

FAILED 错误：java.io.IOException：所有收集器的初始化失败

我在运行 MapReduce WordCount 作业时遇到一些错误错误 java io IOException 所有收集器的初始化失败的最后一个收集器中的错误是 class wordcount wordmapper at org a

Hadoop MapReduce hadoopyarn

Spark 无法再执行作业。执行器创建目录失败

我们已经有一个小型 Spark 集群运行了一个月它已经成功执行了作业或者让我为该集群启动一个 Spark shell 无论我向集群提交作业还是使用 shell 连接到集群错误总是相同的 root SPARK HOME bin spar

Hadoop MapReduce apachespark

为什么map任务总是运行在单节点上

我有一个具有 4 个节点的完全分布式 Hadoop 集群当我将作业提交给 Jobtracker 时 Jobtracker 认为 12 个映射任务对我的工作来说很酷但奇怪的事情发生了这 12 个映射任务始终在单个节点上运行而不是在整个

Hadoop MapReduce HDFS

使用 CouchDB 视图替换 SQL 中的多个联接

我正在为我的应用程序实现过滤功能但在 CouchDB 上编写视图时遇到问题在 SQL 中这将是一个具有多个连接的语句如何替换 CouchDB 中的多重连接本文涵盖单连接 http www cmlenz net archives 2

databasedesign join View couchdb MapReduce

在 Hadoop MapReduce 中解析 PDF 文件

我必须在 Hadoop 的 MapReduce 程序中解析 HDFS 中的 PDF 文件所以我从 HDFS 获取 PDF 文件为输入分割它必须被解析并发送到 Mapper 类为了实现这个输入格式我已经经历过这个link http cod

pdf Hadoop MapReduce pdfparsing

使用 MultipleOutputs 写入 MapReduce 中的 HBase

我目前有一个 MapReduce 作业它使用 MultipleOutputs 将数据发送到多个 HDFS 位置完成后我使用 HBase 客户端调用在 MR 之外将一些相同的元素添加到一些 HBase 表中使用 TableOutp

Hadoop MapReduce Hbase

Hadoop：Reducer 将 Mapper 输出写入输出文件

我遇到了一个非常非常奇怪的问题减速器确实可以工作但是如果我检查输出文件我只找到了映射器的输出当我尝试调试时在将映射器的输出值类型从 Longwritable 更改为 Text 后我发现字数示例存在相同的问题 package o

Hadoop MapReduce reduce

mrjob组合器不工作python

简单的映射组合reduce程序映射column 1与值column 3并追加在相同键和附加的每个映射器输出中减少相同密钥的输出后 input 1 and input 2两个文件都包含 a 1 2 3 a 4 5 6 Code is f

python MapReduce mrjob

Log4j RollingFileAppender 未将映射器和减速器日志添加到文件中

我们希望将应用程序日志打印到本地节点上的文件中我们使用 Log4j 的 RollingFileAppender Our log4j properties文件如下 ODS LOG DIR var log appLogs ODS LOG IN

Hadoop logging MapReduce Log4j hortonworksdataplatform