Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项?
我想知道如何指定mapreduce配置 例如mapred task timeout mapred min split size等等 当使用自定义 jar 运行流作业时 当我们使用 ruby 或 python 等外部脚本语言运行时 我们可以使
Java
Hadoop
MapReduce
elasticmapreduce
EMR
mongodb - 检索数组子集
看似简单的任务对我来说是一个挑战 我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
Arrays
MongoDB
MapReduce
arguments
subset
hadoop中reducer的数量
我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以 节点数 每个节点的最大容器数 3 减速机数量设定为mapred re
Hadoop
MapReduce
Hadoop2
reducers
Bigdata
遍历 ArrayWritable - NoSuchMethodException
我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误 我无法通过 Google 回答该错误 我正在使用 ArrayWritable 制作一个基本程序 但是当我运行它时 在Reduce过程中出现以下错误 java lang Runti
Hadoop
MapReduce
Iteration
NoSuchMethodError
从 Eclipse 在 AWS-EMR 上运行 MapReduce 作业
我在 Eclipse 中有 WordCount MapReduce 示例 我将其导出到 Jar 然后将其复制到 S3 然后我在 AWS EMR 上运行它 成功地 然后 我读到了这篇文章 http docs aws amazon com El
Java
jar
MapReduce
elasticmapreduce
amazonemr
Spark scala - 按数组列分组[重复]
这个问题在这里已经有答案了 我对 Spark Scala 很陌生 感谢你的帮助 我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
Arrays
scala
apachespark
MapReduce
使用 Hadoop 映射两个数据集
假设我有两个键值数据集 数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据 其中两者在键上匹配 因为我要处理如此大量的数据 所以我使用 Hadoop 进行 MapReduce 我担心的是 为了在 A 和 B
Hadoop
MapReduce
Python - Map/Reduce - 如何在使用 DISCO 计数单词示例中读取 JSON 特定字段
我正在按照 DISCO 示例来计算文件中的单词数 将单词数作为 Map Reduce 作业 http discoproject org doc disco start tutorial html 我对此工作没有任何问题 但是我想尝试从包含
python
json
Unicode
MapReduce
disco
在 mongo 中,如何使用 Map Reduce 来按最近排序来获取组
我看到的 MapReduce 示例使用了诸如 count 之类的聚合函数 但是使用 MapReduce 来获取每个类别中前 3 个项目的最佳方法是什么 我假设我也可以使用 group 函数 但很好奇 因为他们声明分片环境不能使用 group
MongoDB
MapReduce
greatestnpergroup
为什么组合器输入记录的数量比映射的输出数量多?
Combiner 在 Mapper 之后 Reducer 之前运行 它将接收给定节点上的 Mapper 实例发出的所有数据作为输入 然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
Hadoop
MapReduce
combiners
MongoDB:在没有并行性的情况下使用 MapReduce 有什么意义?
Quoting http www mongodb org display DOCS MapReduce MapReduce Parallelism http www mongodb org display DOCS MapReduce Ma
parallelprocessing
MongoDB
MapReduce
Hive ParseException - 无法识别“结束”“字符串”附近的输入
尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
Hadoop
MapReduce
hive
Bigdata
amazondynamodb
将多个前缀行过滤器设置为扫描仪 hbase java
我想创建一台扫描仪 它可以为我提供带有 2 个前缀过滤器的结果例如 我想要其键以字符串 x 开头或以字符串 y 开头的所有行 目前我知道只能使用一个前缀 方法如下 scan setRowPrefixFilter prefixFiltet 在
Java
Hadoop
MapReduce
Hbase
mongodb 聚合随机化(shuffle)结果
我正在浏览一堆 mongo 文档 但找不到洗牌或随机化结果内容的可能性 有没有 特别是对于聚合框架本身来说 实际上并没有任何本地方法 因为还没有可用的运算符来执行诸如生成随机数之类的操作 因此 无论您可能投射一个字段进行排序的任何匹配 都不
MongoDB
MapReduce
shuffle
aggregationframework
java.io.IOException:无法获取 LocationBlock 的块长度
我正在使用 HDP 2 1 对于集群 我遇到了以下异常 并且 MapReduce 作业因此失败 实际上 我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件 但我找不到任何内容 2014 11 28 00 0
Hadoop
MapReduce
flume
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat?
我想编写多个输出文件 如何使用 Job 而不是 JobConf 来执行此操作 创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
Hadoop
MapReduce
java.lang.IllegalArgumentException:错误的 FS:,预期:hdfs://localhost:9000
我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存 但在stderr中检查时它没有查找值 它显示以下错误 lookupfile文件已经存在于hdfs中 并且似乎已正确加载进入缓存 如标准输出中
Java
Hadoop
MapReduce
distributedcache
远程执行hadoop作业时出现异常
我正在尝试在远程 hadoop 集群上执行 Hadoop 作业 下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
Hadoop
MapReduce
HDFS
如何在hadoop/map reduce中创建固定行数的输出文件?
假设我们有 N 个具有不同行数的输入文件 我们需要生成输出文件 使得每个输出文件恰好有 K 行 最后一个输出文件可以有 是否可以使用单个 MR 作业来完成此操作 我们应该打开文件以便在reducer中显式写入 输出中的记录应该被打乱 tha
Hadoop
MapReduce
Hive 上的自定义 MapReduce 程序,规则是什么?输入和输出怎么样?
我被困了几天 因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序 在谷歌搜索后我发现没有太多例子 而且我仍然对规则感到困惑 创建自定义 MapReduce 程序的规则是什么 映射器和减速器类怎么样 任何人都可以提供任何解决方案
Hadoop
MapReduce
hive
1
2
3
4
5
6
...25
»