MapReduce

MapReduce作业的Map阶段的输出总是排序的吗？

我对从 Mapper 获得的输出有点困惑例如当我使用以下输入文本运行一个简单的字数统计程序时 hello world Hadoop programming mapreduce wordcount lets see if this wor

Hadoop MapReduce Hadoop2

Hive-Tez 上的 Map-Reduce 日志

我想在 Hive Tez 上运行查询后获得 Map Reduce 日志的解释 INFO 后面的几行传达什么这里我附上了一个样本 INFO Session is already open INFO Dag name SELECT a Mod

MapReduce hive hadoopyarn HiveQL apachetez

简单 Yarn 应用程序的 NoClassDefFoundError

我试图从运行简单的纱线应用程序简单纱线应用程序 https github com hortonworks simple yarn app 但我在应用程序错误日志中收到以下异常 Exception in thread main java la

Hadoop MapReduce hadoopyarn

Hadoop 中的作业和任务调度

当我阅读延迟公平调度时我对 Hadoop 中的术语作业调度和任务调度有点困惑在这张幻灯片中 https people csail mit edu matei talks 2010 eurosys delaysched pdf 如果

Java Hadoop MapReduce mapper reducers

错误的键类：文本不是 IntWritable

这似乎是一个愚蠢的问题但我在 hadoop 的 mapreduce 代码中没有看到我的类型中的问题正如问题中所述问题是它需要 IntWritable 但我在减速器的collector collect 中向它传递了一个 Text 对象

Java Hadoop MapReduce

Java MapReduce 按日期计数

我是 Hadoop 的新手我正在尝试编写一个 MapReduce 程序以按日期按月分组计算最多出现的前两次选集所以我的输入是这样的 2017 06 01 A B A C B E F 2017 06 02 Q B Q F K E F

Java Hadoop MapReduce wordcount

在 Hive 中获取系统日期 -1

有什么办法可以得到current date 1在 Hive 中的意思是yesterdays date总是并且以这种格式 20120805 我可以像这样运行查询来获取数据yesterday s date就像今天一样Aug 6th selec

Hadoop MapReduce hive HiveQL

相当于hadoop中mongo的out:reduce选项

我正在重写 MongoDB 映射缩减作业以使用 Hadoop 使用 mongo hadoop 连接器但是当我将两个数据集映射到同一个集合时它会覆盖这些值而不是使用它们 reduce collectionName 如果结果集中和旧集合中存

Java MongoDB Hadoop MapReduce

MongoDB聚合组数组到键：总和值

您好我是 mongodb 新手尝试将不同类型 int 的对象转换为键值对我有这样的收藏 id ObjectId 5372a9fc0079285635db14d8 type 1 stat foobar id ObjectId 5372a

MongoDB MapReduce aggregationframework

PIG UDF 处理多行元组拆分为不同的映射器

我有一个文件其中每个元组跨越多行例如 START name Jim phone 2128789283 address 56 2nd street New York USA END START name Tom phone 6308789

Hadoop amazonwebservices MapReduce userdefinedfunctions apachepig

Hadoop MapReduce 出现“无法解析主机名”错误

现在我运行Hadoop MapReduce作业输入数据来自HBase表最近出现错误错误如下错误mapreduce TableInputFormatBase 无法解析 172 16 4 195的主机名因为javax naming N

Hadoop MapReduce

需要一个 CouchDB 技巧来按日期排序并按组过滤

我有包含日期和组字段的文档这是我的观点 byDateGroup map function doc if doc date doc group emit doc date doc group null 与此等效的查询是什么 sele

View Dictionary couchdb MapReduce

Hive 面试问题中的分区

1 如果分区列没有数据那么当你查询它时你会得到什么错误 2 如果某些行没有分区列这些行将如何处理会不会有数据丢失 3 为什么需要对数字列进行分桶我们也可以使用字符串列吗流程是什么您将根据什么选择分桶塔 4 内表详细信息也会存储

hive MapReduce HiveQL mapper hivepartitions

为什么我们要在 YARN 中配置 mapred.job.tracker？

据我所知 YARN 被引入并取代了 JobTracker 和 TaskTracker 我看过一些Hadoop 2 6 0 2 7 0安装教程他们正在配置mapreduce framework name作为纱线和mapred job tra

Hadoop MapReduce hadoopyarn

如何从 SQL 转换为 NoSQL/MapReduce？

我有使用关系数据库的背景但最近开始涉足 CouchDB 并对一些非关系操作在 SQL 中很简单在 CouchDB 中并不是一流函数感到惊讶如果您花点时间将下面的每个 SQL 语句映射到其 MapReduce 等效项我将不胜感激 S

sql database NoSQL couchdb MapReduce

如何在Hadoop中自定义Writable类？

我正在尝试实现可写类但我不知道如果我的类中有嵌套对象例如列表等如何实现可写类任何人都可以帮助我吗谢谢 public class StorageClass implements Writable public String xStr

Java Hadoop MapReduce

在Python中使用Hadoop处理大型csv文件

我有一个巨大的 CSV 文件想在 Amazon EMR python 上使用 Hadoop MapReduce 进行处理该文件有 7 个字段但是我只查看date and quantity field date receiptId pr

python Hadoop amazonwebservices MapReduce

提交 Hadoop 作业

我需要不断获取映射器和减速器的运行时间我已提交作业如下 JobClient jobclient new JobClient conf RunningJob runjob jobclient submitJob conf TaskRepor

Hadoop MapReduce

通过 Oozie HDP 2.1 进行的作业未创建 job.splitmetainfo

当尝试执行 sqoop 作业时该作业将我的 Hadoop 程序作为 jar 文件传递给 jarFiles参数执行失败并出现以下错误任何解决方案似乎都无法实现具有相同 Hadoop 用户的其他作业正在成功执行 org apache

Hadoop MapReduce SQOOP oozie hortonworksdataplatform