Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何在 MongoDB 中使用 Map/Reduce?
我无法理解 Map Reduce 在 MongoDB 中的工作原理 我有一个包含字段的集合 areacode state county zip city lat lon列出了美国的每个邮政编码以及相应的县 州等 我希望能够查询给定州的所有县
php
MapReduce
MongoDB
Hadoop 作业失败,资源管理器无法识别 AttemptED
我正在尝试在 Oozie 工作流程中聚合一些数据 但是聚合步骤失败 我在日志中发现了两个有趣的点 第一个是一个似乎重复出现的错误 容器完成后 它会被终止 但会以非零退出代码 143 退出 它完成了 2015 05 04 15 35 12 0
Hadoop
MapReduce
oozie
Hadoop Streaming:映射器“包装”二进制可执行文件
我有一个管道 目前在大型大学计算机集群上运行 出于发布目的 我想将其转换为 mapreduce 格式 以便任何使用 amazon webservices AWS 等 hadoop 集群的人都可以运行它 该管道当前由一系列 python 脚本
python
Binary
Streaming
Hadoop
MapReduce
(Hadoop) MapReduce - 链作业 - JobControl 不会停止
我需要链接两个 MapReduce 作业 我使用 JobControl 将 job2 设置为依赖于 job1 它有效 输出文件已创建 但它并没有停止 在 shell 中它保持这种状态 12 09 11 19 06 24 WARN mapre
Hadoop
MapReduce
chain
jobcontrol
我如何以csv格式输出hadoop结果
我需要以 csv 格式输出我的 hadoop 结果 我该怎么做 我的代码 https github com studhadoop xml blob master XmlParser11 java 我应该简单地在我的代码中包含 csvoutp
Java
csv
Hadoop
MapReduce
如何在hadoop中执行MapReduce作业期间在控制台上打印
我想在控制台上执行后打印 地图 的每一步 就像是 System out println 第一步完成 System out println 第二步完成 等等 是否有一个特殊的命令可以做到这一点 或者根本不可能 因为 System out pr
Hadoop
MapReduce
Hadoop MapReduce - 每个输入一个输出文件
我是 Hadoop 的新手 我正在尝试弄清楚它是如何工作的 至于练习 我应该实现类似于 WordCount Example 的东西 任务是读入多个文件 进行字数统计并为每个输入文件写入一个输出文件 Hadoop 使用组合器并将映射部分的输出
Java
Hadoop
MapReduce
为什么 Spark 不允许映射端与数组键组合?
我正在使用 Spark 1 3 1 我很好奇为什么 Spark 不允许在映射端组合上使用数组键 一片combineByKey function if keyClass isArray if mapSideCombine throw new
scala
apachespark
MapReduce
RDD
hadoop map减少二次排序
谁能解释一下 hadoop 中的二次排序是如何工作的 为什么一定要使用GroupingComparator它在 hadoop 中是如何工作的 我正在浏览下面给出的链接 并对 groupcomapator 的工作原理产生疑问 谁能解释一下分组
Hadoop
MapReduce
hadooppartitioning
MRJob 的多个输入
我正在尝试学习使用 Yelp 的 Python API 进行 MapReduce MRJob 他们的简单单词计数器示例很有意义 但我很好奇如何处理涉及多个输入的应用程序 例如 不是简单地计算文档中的单词数 而是将向量乘以矩阵 我想出了这个解
python
MapReduce
mrjob
对 CouchDB 视图中的日期进行排序
我有一个嵌套的 JSON 对象作为键status below 2011 01 19 09 41 00 AM Prototyping status application 2011 01 20 09 41 00 AM Playing with
NoSQL
couchdb
MapReduce
如何在多核8节点集群中调度Hadoop Map任务?
我有一个 仅映射 无缩减阶段 程序 输入文件的大小足以创建 7 个映射任务 我已经通过查看生成的输出 part 000 到 part006 验证了这一点 现在 我的集群有 8 个节点 每个节点有 8 个核心和 8 GB 内存 并在头节点托管
Hadoop
MapReduce
Cloudera
Hadoop MapReduce 读取文本文件
我正在尝试编写一个 MapReduce 程序 它可以读取输入文件并将输出写入另一个文本文件 我计划为此使用 BufferedReader 类 但我真的不知道如何在 MapReduce 程序中使用它 我怎样才能为其编写代码片段 附 我对 Ha
Hadoop
MapReduce
在Windows上构建hadoop 2.2
我正在尝试在windows上安装hadoop 到目前为止还很麻烦 这是我不断收到的错误 ERROR Failed to execute goal org codehaus mojo exec maven plugin 1 2 exec co
apache
Maven
Hadoop
MapReduce
Cygwin
将对象从驱动程序传递到 MapReduce
我创建了一个驱动程序 它读取配置文件 构建对象列表 基于配置 并将该列表传递给 MapReduce MapReduce 有一个静态属性 它保存对该对象列表的引用 它有效 但仅限于本地 一旦我在集群配置上运行作业 我就会收到各种错误 表明列表
Hadoop
MapReduce
多行文本到单个地图
我一直在尝试使用 Hadoop 将 N 行发送到单个映射 我不需要分割线 我尝试使用 NLineInputFormat 但是它将 N 行文本从数据发送到每个映射器 一次一行 在第 N 行后放弃 我尝试设置该选项 只需要 N 行输入 一次将
Java
Hadoop
MapReduce
获取 MongoDB 数组字段中给定元素的索引
想想这个 MongoDB 文档 id 123 food apple banana mango 问题 如何获得位置mango在食物中 查询应该返回2上面的内容 并且不要返回整个文档 请显示工作查询 从 MongoDB 3 4 版本开始我们可以
MongoDB
MapReduce
mongodbquery
aggregationframework
【Hadoop离线基础总结】MapReduce参数优化
MapReduce参数优化 资源相关参数 这些参数都需要在mapred site xml中配置 mapreduce map memory mb 一个 MapTask 可使用的资源上限 单位 MB 默认为1024 如果 MapTask 实际使
Hadoop离线基础总结
Hadoop
大数据
MapReduce
centos安装配置hadoop超详细过程(含故障排除)
1 集群部署介绍 1 1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台 以Hadoop分布式文件系统 HDFS Hadoop Distributed Filesystem 和MapReduce Goog
Hadoop
Liunx
软件
centOS
MapReduce
大数据Mapreduce编程——矩阵乘法
编程要求 完成矩阵乘法的 Map 函数和 Reduce 函数 1 设计两个矩阵 3050 50100 在每个单元格中填入一个 0 99 的随机数 并写入 两个文件中 作为 Map 函数的输入 2 测试运行矩阵乘法的 MapReduce 框架
大数据程序
MapReduce
矩阵
Java
Hadoop
«
1 ...
16
17
18
19
20
21
22
...27
»