MapReduce

输入格式是否负责在 Hadoop 的 MapReduce 中实现数据局部性？

我试图了解数据局部性因为它与 Hadoop 的 Map Reduce 框架相关特别是我想了解哪个组件处理数据局部性即它是输入格式吗雅虎的开发者网络页面 http developer yahoo com hadoop tutorial

Hadoop MapReduce Hbase HDFS

通过关键字段查找 MongoDB 集合中的所有重复文档

假设我有一个包含一些文档集的集合像这样的东西 id ObjectId 4f127fa55e7242718200002d id 1 name foo id ObjectId 4f127fa55e7242718200002d id 2 nam

MongoDB MapReduce duplicates aggregationframework

RavenDB 嵌套可变长度数组上的 Map/Reduce/Transform

我是 RavenDB 的新手到目前为止我很喜欢它我还需要为我的项目创建一个索引问题我有数千份调查回复即 Submissions 并且每个提交都有一系列特定问题的答案即 Answers 每个答案都有一系列已选择的选项即 Valu

MapReduce ravendb ravenhq

MongoDB MapReduce是否锁定数据库

MongoDB MapReduce 作业是否会锁定数据库我正在开发一个多用户 MongoDB Web 应用程序并且担心多用户冲突和性能有人能给我一些至理名言吗简单的回答有时这在很大程度上取决于您如何使用map reduce 但根

MongoDB MapReduce

为什么我们需要 Hadoop 无密码 ssh？

AFAIK 需要无密码 ssh 以便主节点可以在每个从节点上启动守护进程除此之外无密码ssh对于Hadoop的操作有什么用处吗用户代码 jar 和数据块如何跨从节点传输我想知道所使用的机制和协议无密码 SSH 应该只配置为主从对

Hadoop MapReduce

shuffle阶段和combiner阶段有什么区别？

我对 MapReduce 框架很困惑我从不同的来源读到了这方面的内容感到很困惑顺便说一句这是我对 MapReduce 作业的想法 1 Map gt emit

Hadoop MapReduce combiners partitioner

Hive Bucket-理解 TABLESAMPLE(BUCKET X OUT OF Y)

大家好我对 Hive 很陌生我已经在实际操作中了解了 hadoop 中的存储桶概念但未能理解以下几行内容有人可以帮助我吗 SELECT avg viewTime FROM page view TABLESAMPLE BUCKET 1

Hadoop MapReduce hive

在 Pig 中删除单列

我正在按大约 20 个 ID 的列表过滤表现在我的代码如下所示 A LOAD ids txt USING PigStorage B LOAD massive table USING PigStorage C JOIN A BY 0 B B

Hadoop MapReduce apachepig

将 Apache Hadoop 数据输出存储到 Mysql 数据库

我需要将map reduce程序的输出存储到数据库中有什么办法吗如果是这样是否可以根据要求将输出存储到多个列和表中请给我建议一些解决方案谢谢展示了一个很好的例子在这个博客上 http archanaschangale wordp

mysql Hadoop MapReduce databaseconnection Bigdata

由于 AM 容器，应用程序失败 2 次：以 exitCode: 1 退出

我在 hadoop 2 7 0 上运行了一个 MapReduce 作业但 MapReduce 作业无法启动并且遇到以下错误 Job job 1491779488590 0002 failed with state FAILED due

Hadoop MapReduce

MapReduce任务数量

我需要一些有关如何在我的应用程序中获取正确数量的 Map 和 Reduce 任务的帮助有什么办法可以发现这个数字吗 Thanks 由于在执行之前无法准确确定应用程序执行前的任务失败重试和推测性执行尝试的因素因此无法获取应用程序执行前的

Hadoop MapReduce Bigdata

Spark RDD 通过键查找

我有一个从 HBase 转换而来的 RDD val hbaseRDD RDD String Array String 其中 tuple 1 是行键数组是HBase中的值 4929101 ACTIVE 4929101 2015 05 20

scala apachespark MapReduce Hbase RDD

600 秒内无法报告状态。杀戮！报告 hadoop 的进度

我收到以下错误 Task attempt 201304161625 0028 m 000000 0 failed to report status for 600 seconds Killing 为我的地图工作这个问题类似于this ht

Java Hadoop MapReduce

HBase：get(...) 与扫描和内存表

我正在 HBase 上执行 MR 减速器中的业务逻辑大量访问两个表例如 T1 40k 行和 T2 90k 行目前我正在执行以下步骤 1 在reducer类的构造函数中执行如下操作 HBaseCRUD hbaseCRUD new H

Hadoop MapReduce Hbase

QtConcurrent 的 Scala 类似物

Scala 或 Java 的 QtConcurrent 的类似物是什么即MapReduce 并行map 和foldl 的简化实现谢谢您可以使用 Scala 并行集合它们目前是 Scala nightly 版本的一部分并将在 Sca

scala MapReduce parallelprocessing

将 NDB Datastore 记录导出到 Cloud Storage CSV 文件

在我的 NDB 数据存储中我有超过 200 万条记录我想导出这些记录分组created at将日期保存到 Google Cloud Storage 上的 CSV 文件中我算了一下每个文件大约有 1GB 2014 03 18 csv

googleappengine csv MapReduce googlecloudstorage appenginendb

Hadoop字数统计：接收以字母“c”开头的单词总数

这是 Hadoop 字数统计 java map 和 reduce 源代码在地图函数中我已经可以输出所有以字母 c 开头的单词以及该单词出现的总次数但我想做的只是输出总数以字母 c 开头的单词但我在获取总数方面有点困难任何帮助将不胜

Java Hadoop MapReduce

HDFS中的数据块大小，为什么是64MB？

HDFS Hadoop默认数据块大小为64MB 磁盘中的块大小一般为4KB 64MB 块大小意味着什么 gt 是否意味着从磁盘读取的最小单位是64MB 如果是这样做的好处是什么 gt 方便连续访问 HDFS 中的大文件我们可以使用磁盘原

database Hadoop MapReduce block HDFS

Yarn MapReduce 作业问题 - Hadoop 2.3.0 中的 AM 容器启动错误

我已经设置了 Hadoop 2 3 0 的 2 节点集群它工作正常我可以成功运行 Distributedshell 2 2 0 jar 示例但是当我尝试运行任何 MapReduce 作业时我收到错误我已经设置了 MapRed xm

Java Hadoop MapReduce hadoopyarn

在MapReduce Job配置中设置参数

有没有办法在作业配置中设置参数Mapper并且可以从Reducer 我尝试了下面的代码在映射器中 map context getConfiguration set Sum 100 在减速机中 reduce context getConfi

Hadoop MapReduce