MapReduce

RavenDB 对列表属性进行 Map/Reduce

刚刚学习 Map Reduce 我错过了一个步骤我读过这篇文章使用 NET 客户端的 RavenDB Map Reduce 示例 https stackoverflow com questions 4253334 ravendb map

c MapReduce ravendb

多个输出路径（Java - Hadoop - MapReduce）

我做了两项 MapReduce 作业我希望第二项作业能够将结果写入两个不同目录中的两个不同文件中我想要某种类似于 FileInputFormat addInputPath multiple input path 的东西但对于输出我对

Java Hadoop MapReduce output

需要帮助编写 Map/Reduce 作业来查找平均值

我对 Hadoop Map Reduce 还很陌生我正在尝试编写一个 Map Reduce 作业来查找 n 个进程所花费的平均时间给定输入文本文件如下 ProcessName Time process1 10 process2 20 p

Hadoop MapReduce

记录读取器和记录边界

假设我有一个输入文件并且 HDFS 中为该文件创建了三个块假设我有三个数据节点每个数据节点存储一个块如果我有 3 个输入拆分则 3 个映射器将并行运行以处理相应数据节点本地的数据每个映射器使用输入格式和记录读取器以键值对形式获取

Hadoop MapReduce

Hadoop 发行版差异

有人可以概述一下可用的各种 Hadoop 发行版之间的各种差异吗 Cloudera http www cloudera com hadoop http www cloudera com hadoop Yahoo http developer

Java Hadoop MapReduce

未找到映射器类

有时我的 MR 工作会抱怨找不到 MyMapper 类我必须给 job setJarByClass MyMapper class 告诉它从我的 jar 文件加载它 cloudera cloudera vm tmp translator h

Hadoop MapReduce ClassNotFoundException

0.20.2 API hadoop 版本与 java 5

我已经启动了一个maven项目试图在java 1 5 0 14中实现MapReduce算法我选择了0 20 2 API hadoop版本在 pom xml 中我使用以下依赖项 lt groupId gt org apache had

Java Maven Hadoop MapReduce

Spark 配置：SPARK_MEM 与 SPARK_WORKER_MEMORY

In spark env sh 可以配置以下环境变量 SPARK WORKER MEMORY to set how much memory to use e g 1000m 2g export SPARK WORKER MEMORY 22g

scala MapReduce apachespark

Couchdb - 是否可以停用reduce_overflow_error错误

我正在开发一个映射归约它在重新归约的情况下并不能准确地返回我所期望的结果我想调试它但我至少也想看看里面有什么所以我输出了很多东西 Couch 返回了一个reduce overflow error每次我运行视图时是否可以停用此行为

MapReduce couchdb

如何更新任务跟踪器以确保我的映射器仍然运行良好而不是生成超时？

我忘记了要调用什么 API 方法但我的问题是我的映射器将运行超过 10 分钟而且我不想增加默认超时相反我想让我的映射器在消耗时间 gt 10 分钟的特定代码路径中时向任务跟踪器发送更新 ping 请让我知道要调用什么 API 方法

Hadoop MapReduce

使用 java Mapreduce 处理 JSON

我是 hadoop mapreduce 新手我输入了文本文件其中数据已存储如下这里只有几个元组 data txt author Shari f Qa sim book al Rabi al manshu d author Na s i

json Hadoop MapReduce

从 MongoDB 中删除重复项

你好我在 mongodb 中有大约 500 万个文档复制每个文档有 43 个字段如何删除重复的文档我尝试过 db testkdd ensureIndex duration 1 protocol type 1 service 1 f

MongoDB MapReduce mongodbquery aggregationframework

Apache Spark 中的驱动程序何时不会运行某个操作？

我刚刚开始使用 Spark 并且在任务的概念上遇到了困难任何人都可以帮助我理解何时某个操作例如减少不在驱动程序中运行从火花教程中使用函数 func 聚合数据集的元素其中接受两个参数并返回一个该函数应该是具有交换性和结合性

MapReduce apachespark Bigdata

使用各种语言在 Hadoop 中运行作业的优缺点是什么？

到目前为止我一直使用 Pig 或 Java 进行 MapReduce 专门针对 Hadoop 集群运行作业我最近尝试通过 Hadoop 流使用 Python Map Reduce 这也很酷所有这些对我来说都有意义但我对何时想要使用一

Hadoop MapReduce apachepig

Hadoop DistributedCache 已弃用 - 首选 API 是什么？

我的地图任务需要一些配置数据我想通过分布式缓存分发这些数据 HadoopMapReduce 教程 https hadoop apache org docs r1 2 1 mapred tutorial html DistributedCa

Java Hadoop MapReduce

如何开始学习hadoop [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是一名网络开发人员我拥有 JavaScript Jquery Php HTML 等 Web 技术的经验我了解 C 的基本概念最

Hadoop MapReduce

维基百科对MapReduce的reduce的解释不正确吗？

MongoDB的解释 http www mongodb org display DOCS MapReduce MapReduce ReduceFunction减少阶段说 Map Reduce引擎可以迭代地调用Reduce函数因此这些函数

MongoDB MapReduce

启动 Oozie 工作流程时出现问题

我在启动 Oozie 工作流程时遇到问题 Config

Hadoop MapReduce oozie

如何在单个JVM中以多线程方式运行hadoop？

我有 4 核桌面希望使用所有核心通过 hadoop 进行本地数据处理即有时我有足够的能力在本地处理数据有时我向集群提交相同的作业默认情况下 hadoop 本地模式仅运行一个映射器和一个减速器因此我的本地作业非常慢我不想首先在单台

Hadoop JVM MapReduce

YARN 中应用程序管理器和应用程序主控之间的区别？

我了解 MRv1 的工作原理现在我试图了解 MRv2 YARN 中的应用程序管理器和应用程序主控之间有什么区别应用程序主控和应用程序管理器这两个术语通常可以互换使用实际上 Application Master 是请求启动和监视应用程

Hadoop MapReduce hadoopyarn