Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
输入格式是否负责在 Hadoop 的 MapReduce 中实现数据局部性?
我试图了解数据局部性 因为它与 Hadoop 的 Map Reduce 框架相关 特别是我想了解哪个组件处理数据局部性 即它是输入格式吗 雅虎的开发者网络页面 http developer yahoo com hadoop tutorial
Hadoop
MapReduce
Hbase
HDFS
通过关键字段查找 MongoDB 集合中的所有重复文档
假设我有一个包含一些文档集的集合 像这样的东西 id ObjectId 4f127fa55e7242718200002d id 1 name foo id ObjectId 4f127fa55e7242718200002d id 2 nam
MongoDB
MapReduce
duplicates
aggregationframework
RavenDB 嵌套可变长度数组上的 Map/Reduce/Transform
我是 RavenDB 的新手 到目前为止我很喜欢它 我还需要为我的项目创建一个索引 问题 我有数千份调查回复 即 Submissions 并且每个提交都有一系列特定问题的答案 即 Answers 每个答案都有一系列已选择的选项 即 Valu
MapReduce
ravendb
ravenhq
MongoDB MapReduce是否锁定数据库
MongoDB MapReduce 作业是否会锁定数据库 我正在开发一个多用户 MongoDB Web 应用程序 并且担心多用户冲突和性能 有人能给我一些至理名言吗 简单的回答 有时 这在很大程度上取决于您如何使用map reduce 但根
MongoDB
MapReduce
为什么我们需要 Hadoop 无密码 ssh?
AFAIK 需要无密码 ssh 以便主节点可以在每个从节点上启动守护进程 除此之外 无密码ssh对于Hadoop的操作有什么用处吗 用户代码 jar 和数据块如何跨从节点传输 我想知道所使用的机制和协议 无密码 SSH 应该只配置为主从对
Hadoop
MapReduce
shuffle阶段和combiner阶段有什么区别?
我对 MapReduce 框架很困惑 我从不同的来源读到了这方面的内容 感到很困惑 顺便说一句 这是我对 MapReduce 作业的想法 1 Map gt emit
Hadoop
MapReduce
combiners
partitioner
Hive Bucket-理解 TABLESAMPLE(BUCKET X OUT OF Y)
大家好 我对 Hive 很陌生 我已经在实际操作中了解了 hadoop 中的存储桶概念 但未能理解以下几行内容 有人可以帮助我吗 SELECT avg viewTime FROM page view TABLESAMPLE BUCKET 1
Hadoop
MapReduce
hive
在 Pig 中删除单列
我正在按大约 20 个 ID 的列表过滤表 现在我的代码如下所示 A LOAD ids txt USING PigStorage B LOAD massive table USING PigStorage C JOIN A BY 0 B B
Hadoop
MapReduce
apachepig
将 Apache Hadoop 数据输出存储到 Mysql 数据库
我需要将map reduce程序的输出存储到数据库中 有什么办法吗 如果是这样 是否可以根据要求将输出存储到多个列和表中 请给我建议一些解决方案 谢谢 展示了一个很好的例子在这个博客上 http archanaschangale wordp
mysql
Hadoop
MapReduce
databaseconnection
Bigdata
由于 AM 容器,应用程序失败 2 次:以 exitCode: 1 退出
我在 hadoop 2 7 0 上运行了一个 MapReduce 作业 但 MapReduce 作业无法启动 并且遇到以下错误 Job job 1491779488590 0002 failed with state FAILED due
Hadoop
MapReduce
MapReduce任务数量
我需要一些有关如何在我的应用程序中获取正确数量的 Map 和 Reduce 任务的帮助 有什么办法可以发现这个数字吗 Thanks 由于在执行之前无法准确确定应用程序执行前的任务失败 重试和推测性执行尝试的因素 因此无法获取应用程序执行前的
Hadoop
MapReduce
Bigdata
Spark RDD 通过键查找
我有一个从 HBase 转换而来的 RDD val hbaseRDD RDD String Array String 其中 tuple 1 是行键 数组是HBase中的值 4929101 ACTIVE 4929101 2015 05 20
scala
apachespark
MapReduce
Hbase
RDD
600 秒内无法报告状态。杀戮!报告 hadoop 的进度
我收到以下错误 Task attempt 201304161625 0028 m 000000 0 failed to report status for 600 seconds Killing 为我的地图工作 这个问题类似于this ht
Java
Hadoop
MapReduce
HBase:get(...) 与扫描和内存表
我正在 HBase 上执行 MR 减速器中的业务逻辑大量访问两个表 例如 T1 40k 行 和 T2 90k 行 目前 我正在执行以下步骤 1 在reducer类的构造函数中 执行如下操作 HBaseCRUD hbaseCRUD new H
Hadoop
MapReduce
Hbase
QtConcurrent 的 Scala 类似物
Scala 或 Java 的 QtConcurrent 的类似物是什么 即MapReduce 并行map 和foldl 的简化实现 谢谢 您可以使用 Scala 并行集合 它们目前是 Scala nightly 版本的一部分 并将在 Sca
scala
MapReduce
parallelprocessing
将 NDB Datastore 记录导出到 Cloud Storage CSV 文件
在我的 NDB 数据存储中 我有超过 200 万条记录 我想导出这些记录分组created at将日期保存到 Google Cloud Storage 上的 CSV 文件中 我算了一下 每个文件大约有 1GB 2014 03 18 csv
googleappengine
csv
MapReduce
googlecloudstorage
appenginendb
Hadoop字数统计:接收以字母“c”开头的单词总数
这是 Hadoop 字数统计 java map 和 reduce 源代码 在地图函数中 我已经可以输出所有以字母 c 开头的单词以及该单词出现的总次数 但我想做的只是输出总数以字母 c 开头的单词 但我在获取总数方面有点困难 任何帮助将不胜
Java
Hadoop
MapReduce
HDFS中的数据块大小,为什么是64MB?
HDFS Hadoop默认数据块大小为64MB 磁盘中的块大小一般为4KB 64MB 块大小意味着什么 gt 是否意味着从磁盘读取的最小单位是64MB 如果是 这样做的好处是什么 gt 方便连续访问 HDFS 中的大文件 我们可以使用磁盘原
database
Hadoop
MapReduce
block
HDFS
Yarn MapReduce 作业问题 - Hadoop 2.3.0 中的 AM 容器启动错误
我已经设置了 Hadoop 2 3 0 的 2 节点集群 它工作正常 我可以成功运行 Distributedshell 2 2 0 jar 示例 但是当我尝试运行任何 MapReduce 作业时 我收到错误 我已经设置了 MapRed xm
Java
Hadoop
MapReduce
hadoopyarn
在MapReduce Job配置中设置参数
有没有办法在作业配置中设置参数Mapper并且可以从Reducer 我尝试了下面的代码 在映射器中 map context getConfiguration set Sum 100 在减速机中 reduce context getConfi
Hadoop
MapReduce
«
1 ...
11
12
13
14
15
16
17
...27
»