MapReduce

Hadoop中数据是如何分割的

Hadoop是否根据程序中设置的mapper数量来分割数据也就是说有一个大小为 500MB 的数据集如果 Mapper 的数量为 200 个假设 Hadoop 集群允许同时存在 200 个 Mapper 那么每个 Mapper 是否

Hadoop MapReduce hadooppartitioning

在couchbase中编写reduce函数

这是我第一次尝试沙发基地我的 json 文档如下所示 member id 12345 devices device id 1 hashes h1 h2 h3 h4 device id 2 hashes h1 h2

MapReduce couchbase

MapReduce 上的Reduce 函数显示不正确的结果——为什么？

我有一个数据结构来跟踪不同城市的人们 in db persons name John city Seattle name Bill city Portland 我想运行一个地图缩减来获取每个城市有多少人的列表所以结果将如下所示 id Se

MongoDB MapReduce

解析数百万个小 XML 文件

我有 1000 万个小 XML 文件 300KB 500KB 我在 Mapreduce 中使用 Mahaout 的 XML 输入格式来读取数据并使用 SAX 解析器进行解析但处理速度非常慢使用输入文件的压缩 lzo 有助于提高性能吗

xml Hadoop MapReduce HDFS

Yarn 迷你集群容器日志目录不包含 syslog 文件

我已经基于 CDH 5 1 0 的 hadoop 2 3 0 设置了带有 1 个节点管理器 4 个本地目录和 4 个日志目录等的 YARN MapReduce 迷你集群它看起来或多或少起作用我未能实现的是从容器进行系统日志记录我看到容

Java Hadoop MapReduce Log4j hadoopyarn

使用 Hadoop，我可以在未运行数据节点的计算机上创建任务跟踪器吗？

所以这是我的情况我有一个使用 HBase 的 MapReduce 作业我的映射器接受一行文本输入并更新 HBase 我没有减速器并且我没有将任何输出写入光盘我希望能够在预期利用率激增时向集群添加更多处理能力然后在利用率下降时缩减处

Java Hadoop MapReduce scalability Hbase

将 MapReduce 作业的输出记录到文本文件

我一直在使用这个 jobclient monitorandprintjob 方法将映射缩减作业的输出打印到控制台我的用法是这样的 job client monitorAndPrintJob job conf job client getJ

Hadoop MapReduce

Hadoop：映射器和缩减器的数量

我使用不同数量的映射器和缩减器例如 1 个映射器和 1 个缩减器 1 个映射器和 2 个缩减器 1 个映射器和 4 个缩减器在 1 1GB 文件上多次运行 Hadoop MapReduce Hadoop安装在具有超线程的四核机器上以下

Hadoop MapReduce

将json数据保存在hadoop的hdfs中

我有以下减速器类 public static class TokenCounterReducer extends Reducer

Java json Hadoop MapReduce reducers

线程“main”中的异常 java.lang.NoClassDefFoundError: com/google/common/base/Preconditions

在 Eclipse 中运行 java Map Reduce 应用程序时遇到以下异常我也将 commons logging 1 2 jar 文件包含在我的构建路径中但仍然在下面我是 hadoop 新手请帮助我 Exception i

eclipse Hadoop MapReduce

RavenDB 索引错误

我刚刚开始使用 Raven 我创建的索引始终无法索引任何内容我在 Raven 服务器上发现了很多如下所示的错误 Index HomeBlurb IncludeTotalCosts Error Cannot implicitly conve

MapReduce ravendb

OpenJDK 客户端 VM - 无法分配内存

我正在集群上运行 Hadoop MapReduce 作业我收到这个错误 OpenJDK 客户端 VM 警告信息 os commit memory 0x79f20000 104861696 0 失败错误无法分配内存 errno 12

Java Hadoop memory MapReduce JVM

Hadoop分区器

我想问一下Hadoop分区器它是在Mappers中实现的吗如何衡量使用默认哈希分区器的性能是否有更好的分区器来减少数据偏差 Thanks 分区器不在映射器内以下是每个映射器中发生的过程每个映射任务将其输出写入循环缓冲存储器而不是

Hadoop MapReduce partitioner

高效查询Hbase

我使用 Java 作为查询 Hbase 的客户端我的 Hbase 表设置如下 ROWKEY HOST EVENT 21 1465435 host hst com clicked 22 1463456 hlo wrld com dragge

Java Hadoop MapReduce Hbase Hadoop2

如何在 Hbase 中连接两个表

Problem 我是 Hbase 新手遇到了需要连接两个表的情况假设我有 Employee 表和 Department 表都是在 Hbase 中创建的通过阅读 Hbase 的实际操作我了解到我们无法连接 Hbase 中的表解决方案

Hadoop MapReduce Hbase

JobControl 和 JofConf.setMapperClass() 错误

我正在尝试使用JobControl将多个Mappers和Reducers连接在一起但调用时遇到以下错误JobConf setMapperClass setMapperClass java lang Class

Java generics Hadoop MapReduce

Hadoop 框架中使用的属性的完整列表

我正在对 Hadoop 框架进行一些研究我想问一下框架中可以使用的属性例如 io sort mb io sort record percent etc 我可以参考这个框架的整个属性列表吗非常希望有人能帮助我另外我想问一下 io s

Java Hadoop Dictionary MapReduce HDFS

如何在Python中加入MongoDB集合？

如何在 Python 中连接在 SQL 的 INNER JOIN 意义上两个 MongoDB 集合我是否需要使用本机映射减少 JavaScript 代码或在 PyMongo 中执行此操作如何用更少的代码解决这个问题 Mongo 存

python MongoDB MapReduce pymongo

如何检查Hadoop中Map任务的内存占用

我知道我可以通过设置 JVM 参数来控制映射或减少任务的最大内存但我想知道是否有办法查看任务当前的内存使用情况启用远程 HPROF 分析 HPROF 是 JDK 附带的一个分析工具虽然很基本但可以提供有关程序的 CPU 和堆使用

Hadoop JVM MapReduce

将 1GB 数据加载到 hbase 需要 1 小时

我想将 1GB 1000 万条记录的 CSV 文件加载到 Hbase 中我为它编写了 Map Reduce 程序我的代码运行良好但需要 1 小时才能完成最后一个Reducer 花费了半个多小时的时间有人可以帮我吗我的代码如下

Java Hadoop MapReduce Hbase Hadoop2