Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
配置 MapReduce 作业时使用多个 InputFormat 类
我想编写一个可以处理文本和 zip 文件的 MapReduce 应用程序 为此 我想使用不同的输入格式 一种用于文本 另一种用于 zip 可以这样做吗 从 ChrisWhite的答案延伸一点 你需要的是使用自定义InputFormat an
Java
Hadoop
MapReduce
getCacheFiles() 和 getLocalCacheFiles() 是否相同?
As 获取本地缓存文件 http hadoop apache org docs r2 3 0 api org apache hadoop mapreduce JobContext html getLocalCacheFiles 已被弃用 我
Hadoop
MapReduce
HDFS
distributedcache
更改 DataFrame.write() 的输出文件名前缀
通过 Spark SQL DataFrame write 方法生成的输出文件以 part 基本名称前缀开头 例如 DataFrame sample 07 hiveContext table sample 07 sample 07 write
Java
scala
apachespark
apachesparksql
MapReduce
在 MongoDB 中使用 MapReduce 连接两个集合
我已经知道 MongoDB 不支持连接操作 但我必须模拟一个 lookup 来自聚合框架 mapReduce范例 我的两个收藏是 Employees sample id 1234 first name John last name Bush
MongoDB
join
MapReduce
lookup
NoSQL
Mongodb 选择所有字段按一个字段分组并按另一字段排序
我们收集了包含以下字段的 消息 id messageId chainId createOn 1 1 A 155 2 2 A 185 3 3 A 225 4 4 B 226 5 5 C 228 6 6 B 300 我们想要选择符合以下条件的文
Java
MongoDB
MapReduce
aggregationframework
springdatamongodb
mrjob:该示例如何自动知道如何在文本文件中查找行?
我试图更好地理解 mrjob 的示例 from mrjob job import MRJob class MRWordFrequencyCount MRJob def mapper self line yield chars len lin
python
MapReduce
mrjob
在 Hadoop MapReduce 脚本中导入外部库
我正在 Amazon EMR Hadoop 实现之上运行 python MapReduce 脚本 从主脚本中 我得到了项目的相似性 在善后步骤中 我想将此输出拆分到每个项目的单独 S3 存储桶中 因此每个项目存储桶都包含与其类似的项目列表
python
amazonwebservices
Hadoop
MapReduce
amazonemr
如何标准化/减少 mongoDB 中的时间数据?
我将详细的性能数据存储在 MongoDB 中 每个集合都是一种性能报告 每个文档都是阵列上端口在该时间点的测量结果 DateTime ISODate 2012 09 28T15 51 03 671Z array serial 12345 P
MongoDB
MapReduce
如何获得按“值”值降序排序的映射/归约结果?如果也使用列表函数可以实现这一点?
我有视图地图并像这样减少 地图 function doc if doc type var usersLength doc users length for var i 0 i lt usersLength i emit doc users
javascript
MapReduce
couchdb
couchdbfuton
如何访问Reducer中的Mapper计数器值?
我想访问reducer中的myCounter my值 public static class Map extends Mapper
Java
Hadoop
MapReduce
hadoop 中的 -libjars 问题
我正在尝试在 Hadoop 上运行 MapReduce 作业 但遇到错误 并且不确定出了什么问题 我必须传递我的映射器所需的库罐子 我正在终端上执行以下命令 hadoop ubuntu usr local hadoop bin hadoop
Hadoop
MapReduce
Hadoop 溢出故障
我目前正在开发一个使用 Hadoop 0 21 0 985326 以及一个由 6 个工作节点和一个头节点组成的集群的项目 提交常规 MapReduce 作业失败 但我不知道为什么 以前有人见过这个异常吗 org apache hadoop
Hadoop
MapReduce
reduce
组合文件输入格式始终只启动一张地图 Hadoop 1.2.1
我正在尝试使用测试CombineFileInputFormat 来处理每个8 MB 的几个小文件 20 个文件 我按照this中给出的示例进行操作blog http yaseminavcular blogspot in 2011 03 01
Hadoop
MapReduce
Hadoop MapReduce 容器以非零退出代码 1 退出
我正在尝试运行一些 hadoop 程序来提取 Ubuntu 中一些摘要的关键字 当我使用 Hadoop 运行程序时 出现以下错误 WARN util NativeCodeLoader Unable to load native hadoop
Hadoop
Lucene
MapReduce
我从哪里开始分布式计算?
我对学习分布式计算技术感兴趣 作为一名 Java 开发人员 我可能愿意从Hadoop http hadoop apache org 您能推荐一些书籍 教程 文章吗 也许你可以先阅读一些MapReduce和分布式计算相关的论文 以更好地理解它
Hadoop
MapReduce
distributedcomputing
由于 inputStream 过早 EOF,Hadoop MapReduce 作业 I/O 异常
我使用以下命令运行 MapReduce 程序hadoop jar
Hadoop
MapReduce
RuntimeError
EOF
IOException
如何通过部分行键过滤HBase的Scan?
我有带有行键的 HBase 表 其中包含文本 ID 和时间戳 如下所示 string id1 1470913344067 string id1 1470913345067 string id2 1470913344067 string id
Java
scala
Hadoop
MapReduce
Hbase
无法获取系统目录 - hadoop
使用hadoop多节点设置 1个主站 1个从站 在 master 上启动 start mapred sh 后 我在 TT 日志中发现以下错误 从属 org apache hadoop mapred TaskTracker 无法获取系统目录
Hadoop
MapReduce
hadooppartitioning
Hadoop 在一个文件中搜索另一个文件中的单词
我想构建一个 hadoop 应用程序 它可以从一个文件读取单词并在另一个文件中搜索 如果该单词存在 它必须写入一个输出文件 如果该单词不存在 它必须写入另一个输出文件 我在hadoop中尝试了一些例子 我有两个问题 两个文件每个大约 200
Hadoop
MapReduce
Hadoop MapReduce 与 MPI(与 Spark、Mahout 与 Mesos) - 何时使用其中之一?
我是并行计算新手 刚刚开始在 Amazon AWS 上尝试 MPI 和 Hadoop MapReduce 但我对何时使用其中一种而不是另一种感到困惑 例如 我看到的一个常见的经验法则可以总结为 大数据 非迭代 容错 gt MapReduce
Hadoop
parallelprocessing
MapReduce
MPI
«
1 ...
5
6
7
8
9
10
11
...26
»