Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Hadoop中数据是如何分割的
Hadoop是否根据程序中设置的mapper数量来分割数据 也就是说 有一个大小为 500MB 的数据集 如果 Mapper 的数量为 200 个 假设 Hadoop 集群允许同时存在 200 个 Mapper 那么每个 Mapper 是否
Hadoop
MapReduce
hadooppartitioning
在couchbase中编写reduce函数
这是我第一次尝试沙发基地 我的 json 文档如下所示 member id 12345 devices device id 1 hashes h1 h2 h3 h4 device id 2 hashes h1 h2
MapReduce
couchbase
MapReduce 上的Reduce 函数显示不正确的结果——为什么?
我有一个数据结构来跟踪不同城市的人们 in db persons name John city Seattle name Bill city Portland 我想运行一个地图缩减来获取每个城市有多少人的列表 所以结果将如下所示 id Se
MongoDB
MapReduce
解析数百万个小 XML 文件
我有 1000 万个小 XML 文件 300KB 500KB 我在 Mapreduce 中使用 Mahaout 的 XML 输入格式来读取数据 并使用 SAX 解析器进行解析 但处理速度非常慢 使用输入文件的压缩 lzo 有助于提高性能吗
xml
Hadoop
MapReduce
HDFS
Yarn 迷你集群容器日志目录不包含 syslog 文件
我已经基于 CDH 5 1 0 的 hadoop 2 3 0 设置了带有 1 个节点管理器 4 个本地目录和 4 个日志目录等的 YARN MapReduce 迷你集群 它看起来或多或少起作用 我未能实现的是从容器进行系统日志记录 我看到容
Java
Hadoop
MapReduce
Log4j
hadoopyarn
使用 Hadoop,我可以在未运行数据节点的计算机上创建任务跟踪器吗?
所以这是我的情况 我有一个使用 HBase 的 MapReduce 作业 我的映射器接受一行文本输入并更新 HBase 我没有减速器 并且我没有将任何输出写入光盘 我希望能够在预期利用率激增时向集群添加更多处理能力 然后在利用率下降时缩减处
Java
Hadoop
MapReduce
scalability
Hbase
将 MapReduce 作业的输出记录到文本文件
我一直在使用这个 jobclient monitorandprintjob 方法将映射缩减作业的输出打印到控制台 我的用法是这样的 job client monitorAndPrintJob job conf job client getJ
Hadoop
MapReduce
Hadoop:映射器和缩减器的数量
我使用不同数量的映射器和缩减器 例如 1 个映射器和 1 个缩减器 1 个映射器和 2 个缩减器 1 个映射器和 4 个缩减器 在 1 1GB 文件上多次运行 Hadoop MapReduce Hadoop安装在具有超线程的四核机器上 以下
Hadoop
MapReduce
将json数据保存在hadoop的hdfs中
我有以下减速器类 public static class TokenCounterReducer extends Reducer
Java
json
Hadoop
MapReduce
reducers
线程“main”中的异常 java.lang.NoClassDefFoundError: com/google/common/base/Preconditions
在 Eclipse 中运行 java Map Reduce 应用程序时 遇到以下异常 我也将 commons logging 1 2 jar 文件包含在我的构建路径中 但仍然在下面 我是 hadoop 新手 请帮助我 Exception i
eclipse
Hadoop
MapReduce
RavenDB 索引错误
我刚刚开始使用 Raven 我创建的索引始终无法索引任何内容 我在 Raven 服务器上发现了很多如下所示的错误 Index HomeBlurb IncludeTotalCosts Error Cannot implicitly conve
MapReduce
ravendb
OpenJDK 客户端 VM - 无法分配内存
我正在集群上运行 Hadoop MapReduce 作业 我收到这个错误 OpenJDK 客户端 VM 警告 信息 os commit memory 0x79f20000 104861696 0 失败 错误 无法分配内存 errno 12
Java
Hadoop
memory
MapReduce
JVM
Hadoop分区器
我想问一下Hadoop分区器 它是在Mappers中实现的吗 如何衡量使用默认哈希分区器的性能 是否有更好的分区器来减少数据偏差 Thanks 分区器不在映射器内 以下是每个映射器中发生的过程 每个映射任务将其输出写入循环缓冲存储器 而不是
Hadoop
MapReduce
partitioner
高效查询Hbase
我使用 Java 作为查询 Hbase 的客户端 我的 Hbase 表设置如下 ROWKEY HOST EVENT 21 1465435 host hst com clicked 22 1463456 hlo wrld com dragge
Java
Hadoop
MapReduce
Hbase
Hadoop2
如何在 Hbase 中连接两个表
Problem 我是 Hbase 新手 遇到了需要连接两个表的情况 假设我有 Employee 表和 Department 表都是在 Hbase 中创建的 通过阅读 Hbase 的实际操作 我了解到我们无法连接 Hbase 中的表 解决方案
Hadoop
MapReduce
Hbase
JobControl 和 JofConf.setMapperClass() 错误
我正在尝试使用JobControl将多个Mappers和Reducers连接在一起但调用时遇到以下错误JobConf setMapperClass setMapperClass java lang Class
Java
generics
Hadoop
MapReduce
Hadoop 框架中使用的属性的完整列表
我正在对 Hadoop 框架进行一些研究 我想问一下框架中可以使用的属性 例如 io sort mb io sort record percent etc 我可以参考这个框架的整个属性列表吗 非常希望有人能帮助我 另外 我想问一下 io s
Java
Hadoop
Dictionary
MapReduce
HDFS
如何在Python中加入MongoDB集合?
如何在 Python 中连接 在 SQL 的 INNER JOIN 意义上 两个 MongoDB 集合 我是否需要使用本机映射 减少 JavaScript 代码或在 PyMongo 中执行此操作 如何用更少的代码解决这个问题 Mongo 存
python
MongoDB
MapReduce
pymongo
如何检查Hadoop中Map任务的内存占用
我知道我可以通过设置 JVM 参数来控制映射 或减少 任务的最大内存 但我想知道是否有办法查看任务当前的内存使用情况 启用远程 HPROF 分析 HPROF 是 JDK 附带的一个分析工具 虽然很基本 但可以提供有关程序的 CPU 和堆使用
Hadoop
JVM
MapReduce
将 1GB 数据加载到 hbase 需要 1 小时
我想将 1GB 1000 万条记录 的 CSV 文件加载到 Hbase 中 我为它编写了 Map Reduce 程序 我的代码运行良好 但需要 1 小时才能完成 最后一个Reducer 花费了半个多小时的时间 有人可以帮我吗 我的代码如下
Java
Hadoop
MapReduce
Hbase
Hadoop2
«
1
2
3
4
5
6
7
8
...25
»