Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 Hadoop MapReduce 的计算语言学项目构想
我需要做一个关于计算语言学课程的项目 是否有任何有趣的 语言 问题 其数据密集程度足以使用 Hadoop MapReduce 来解决 解决方案或算法应尝试分析并提供 语言 领域的一些见解 但是它应该适用于大型数据集 以便我可以使用 hado
Hadoop
MapReduce
NLP
MapReduce 排序和洗牌如何工作?
我正在使用 yelps MRJob 库来实现映射缩减功能 我知道 MapReduce 有一个内部排序和洗牌算法 它根据键对值进行排序 所以如果我在地图阶段后得到以下结果 1 24 4 25 3 26 我知道排序和洗牌阶段将产生以下输出 1
Hadoop
MapReduce
mrjob
映射减少计数示例
我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例 一个标准mapreduce program 我希望map函数收集一些信息 并返回形成如下的reduce函数map
Java
Hadoop
MapReduce
Hadoop YARN 作业陷入映射 0% 并减少 0%
我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置 所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业 并且每个作业都陷入了困境 52191 0003 14 07 14 23 55
Hadoop
MapReduce
Cloudera
hadoopyarn
hadoop map reduce 中的错误处理
根据文档 有几种方法可以在 MapReduce 中执行错误处理 以下是一些 A 使用枚举的自定义计数器 每个失败记录的增量 b 记录错误并稍后分析 计数器给出失败记录的数量 然而 为了获取失败记录的标识符 可能是其唯一键 以及发生异常的详细
Hadoop
errorhandling
MapReduce
DistributedSystem
如何读取 RCFile
我正在尝试将一个小的 RCFile 约 200 行数据 读入 HashMap 中以进行 Map Side 连接 但是在将文件中的数据变为可用状态时遇到了很多麻烦 这是我到目前为止所拥有的 其中大部分来自这个例子 http sumit1001
Java
Hadoop
MapReduce
如何处理 YARN MapReduce 作业的容器故障?
YARN 中如何处理软件 硬件故障 具体来说 如果容器发生故障 崩溃 会发生什么 容器和任务失败由节点管理器处理 当容器失败或死亡时 节点管理器会检测到失败事件并启动一个新容器来替换失败的容器并在新容器中重新启动任务执行 如果应用程序主机发
Hadoop
MapReduce
hadoopyarn
Hadoop2
Hadoop 性能
我安装了hadoop 1 0 0并尝试了字数统计示例 单节点集群 完成时间为 2 分 48 秒 然后我尝试了标准的 Linux 字数统计程序 该程序在同一组 180 kB 数据 上运行只需 10 毫秒 是我做错了什么 还是 Hadoop 非
performance
Hadoop
MapReduce
两个相等的组合键不会到达同一个减速器
我正在使用 MapReduce 框架用 Java 制作 Hadoop 应用程序 我仅使用文本键和值进行输入和输出 在减少最终输出之前 我使用组合器进行额外的计算步骤 但我有一个问题 钥匙没有进入同一个减速器 我在组合器中创建并添加键 值对
Java
Hadoop
MapReduce
combiners
Spark:JavaRDD
到 JavaPairRDD<>
我有一个JavaRDD
Java
MapReduce
apachespark
CouchDB“加入”两个文档
我有两个看起来有点像这样的文档 Doc id AAA creator id data DataKey id credits left 500 times used 0 data id AAA 我想要做的是创建一个视图 它允许我传递 Data
View
NoSQL
couchdb
MapReduce
FAILED 错误:java.io.IOException:所有收集器的初始化失败
我在运行 MapReduce WordCount 作业时遇到一些错误 错误 java io IOException 所有收集器的初始化 失败的 最后一个收集器中的错误是 class wordcount wordmapper at org a
Hadoop
MapReduce
hadoopyarn
Spark 无法再执行作业。执行器创建目录失败
我们已经有一个小型 Spark 集群运行了一个月 它已经成功执行了作业 或者让我为该集群启动一个 Spark shell 无论我向集群提交作业还是使用 shell 连接到集群 错误总是相同的 root SPARK HOME bin spar
Hadoop
MapReduce
apachespark
为什么map任务总是运行在单节点上
我有一个具有 4 个节点的完全分布式 Hadoop 集群 当我将作业提交给 Jobtracker 时 Jobtracker 认为 12 个映射任务对我的工作来说很酷 但奇怪的事情发生了 这 12 个映射任务始终在单个节点上运行 而不是在整个
Hadoop
MapReduce
HDFS
使用 CouchDB 视图替换 SQL 中的多个联接
我正在为我的应用程序实现过滤功能 但在 CouchDB 上编写视图时遇到问题 在 SQL 中 这将是一个具有多个连接的语句 如何替换 CouchDB 中的多重连接 本文涵盖单连接 http www cmlenz net archives 2
databasedesign
join
View
couchdb
MapReduce
在 Hadoop MapReduce 中解析 PDF 文件
我必须在 Hadoop 的 MapReduce 程序中解析 HDFS 中的 PDF 文件 所以我从 HDFS 获取 PDF 文件为输入分割它必须被解析并发送到 Mapper 类 为了实现这个输入格式我已经经历过这个link http cod
pdf
Hadoop
MapReduce
pdfparsing
使用 MultipleOutputs 写入 MapReduce 中的 HBase
我目前有一个 MapReduce 作业 它使用 MultipleOutputs 将数据发送到多个 HDFS 位置 完成后 我使用 HBase 客户端调用 在 MR 之外 将一些相同的元素添加到一些 HBase 表中 使用 TableOutp
Hadoop
MapReduce
Hbase
Hadoop:Reducer 将 Mapper 输出写入输出文件
我遇到了一个非常非常奇怪的问题 减速器确实可以工作 但是如果我检查输出文件 我只找到了映射器的输出 当我尝试调试时 在将映射器的输出值类型从 Longwritable 更改为 Text 后 我 发现字数示例存在相同的问题 package o
Hadoop
MapReduce
reduce
mrjob组合器不工作python
简单的映射组合reduce程序 映射column 1与值column 3并追加 在相同键和附加的每个映射器输出中 减少相同密钥的输出后 input 1 and input 2两个文件都包含 a 1 2 3 a 4 5 6 Code is f
python
MapReduce
mrjob
Log4j RollingFileAppender 未将映射器和减速器日志添加到文件中
我们希望将应用程序日志打印到本地节点上的文件中 我们使用 Log4j 的 RollingFileAppender Our log4j properties文件如下 ODS LOG DIR var log appLogs ODS LOG IN
Hadoop
logging
MapReduce
Log4j
hortonworksdataplatform
«
1
2
3
4
5
6
...25
»