为什么我们需要在Hadoop程序中明确设置输出键/值类？

2024-04-11

在《Hadoop：权威指南》一书中，有一个示例程序，代码如下。

JobConf conf = new JobConf(MaxTemperature.class);  
conf.setJobName("Max temperature");  
FileInputFormat.addInputPath(conf, new Path(args[0]));  
FileOutputFormat.setOutputPath(conf, new Path(args[1]));  
conf.setMapperClass(MaxTemperatureMapper.class);  
conf.setReducerClass(MaxTemperatureReducer.class);  
conf.setOutputKeyClass(Text.class);  
conf.setOutputValueClass(IntWritable.class);

MR框架应该能够从Mapper和JobConf类上设置的Reduce函数中找出输出键和值类。为什么我们需要在JobConf类上显式设置输出键和值类？此外，对于输入键/值对也没有类似的 API。

原因是类型擦除[1]。您将输出 K/V 类设置为泛型。在作业设置期间（运行时，而不是编译时），这些泛型将被删除。

输入 k/v 类可以从输入文件中读取，对于 SequenceFiles，类位于标题中 - 您可以在编辑器中打开序列文件时读取它们。必须编写此标头，因为每个映射输出都是一个 SequenceFile，因此您需要提供类。

[1] http://download.oracle.com/javase/tutorial/java/generics/erasure.html http://download.oracle.com/javase/tutorial/java/generics/erasure.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

class

input

Hadoop

为什么我们需要在Hadoop程序中明确设置输出键/值类？的相关文章

Haskell 中的异构多态性（正确方法）

让一个模块来抽象Area操作错误的定义 class Area someShapeType where area someShapeType gt Float module utilities sumAreas Area someShape
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
在python中访问超级（父）类变量

我是Python新手我尝试使用 super 方法访问子类中的父类变量但它抛出错误无参数使用类名访问类变量是可行的但我想知道是否可以使用 super 方法访问它们 class Parent object props a str a
Windows 控制台中的 C++ 按键输入

我目前正在开发各种consoleWindows 中的游戏无法通过常规输入真正运行cin 我怎样才能以简单的方式仅使用 MSVC 中提供的标准 Windows 库让程序等待特定按键并返回按键 ID 它必须适用于包括箭头键在内的所有按键
在 init 之外在 java 中创建对象

因此对于我正在创建的游戏我有一些扩展 GameDriver 的类到目前为止在所有其他类上我都能够扩展 GameDriver 然后在 GameDriver 中我可以执行以下操作 ArrayList
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
去除iOS输入阴影

在 iOS Safari 5 上我必须遵循输入元素顶部内部阴影我想删除顶部阴影错误 webkit appearance不保存目前的风格是 input border radius 15px border 1px dashed BBB
从 Selenium Webdriver WebElement 字段检索值并将其传递给 java 变量

首先请原谅初学者的问题我是 Java 和 Selenium Webdriver 的新手我正在通过尝试测试 CMS 应用程序来学习 Webdriver CMS 的概念是创建文章并通过工作流程发送它们因此编辑可能会创建一篇文章并发送给
Ruby 对象打印为指针

我正在尝试创建一个类它有一个带有单个参数的构造函数当我创建该对象的新实例时它返回一个指针 class Adder def initialize my num my num my num end end y Adder new 12 p
jQuery 输入事件在 IE 中的占位符上触发

我有一个输入字段input绑定到它的事件通过 jQuery 每次输入值更改时都应触发此事件我添加了一个占位符来告诉用户此输入字段的用途如果用户单击此输入字段input不应触发事件该值实际上不会改变只是占位符消失它在 Firefo
如何表示类的实例与将其作为输入的类之间的关系？

我有一堂课叫House 这个类的实例是house class House def init self height length self height height self length length def housePlan hou
如何使用javascript通过类名更改html元素的值

这是我用来更改 html 元素值的代码 a class classname href Vtech com This text to be chnage a 如何在页面加载瞬间更改此文本看来你需要添加DOMContentLoaded或者把你
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
ECMAScript 6 类中的 getter 和 setter 有何用途？

我对 ECMAScript 6 类中 getter 和 setter 的意义感到困惑什么目的下面是我参考的一个例子 class Employee constructor name this name name doWork return
在类中使用 std::chrono::high_resolution_clock 播种 std::mt19937 的正确方法是什么？

首先大家好这是我在这里提出的第一个问题所以我希望我没有搞砸在写这篇文章之前我用谷歌搜索了很多我对编码 C 很陌生我正在自学考虑到有人告诉我只为任何随机引擎播种一次是一个很好的做法我在这里可能是错的什么是正确最佳更有效
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
类、模块、它们的特征类和方法查找

我们来开公开课吧Module并向其中添加一个方法 class Module def foo puts phew end end 我可以通过这样做来调用这个方法 Class foo 这是可以理解的因为类Class is Class 其超类是
C++类名冲突

我现在正在做一个项目需要整合两个子项目项目A是用C 编写的项目B是用C编写的一个问题是在项目B中有一个名为vector它是由其作者创建的在项目 A 中 std vector in STL用来因为项目B以后可能会更新所以我不

随机推荐

我可以将 JavaScript 对象存储在 mySQL 数据库中吗？

我正在从网页访问者收集数据并将其放入我创建的 JavaScript 对象中但后来我希望能够引用他们输入的数据我可以访问 MySQL 数据库那么有没有办法在那里存储这个对象我想尝试将其保留为对象格式而不是将其分解为单独的部分 Sto
在 RecyclerView 中显示包含视频文件的文件夹

我在回收器视图中列出了所有媒体文件假设媒体文件位于文件夹中那么我也想在回收站视图中显示该文件夹这是我列出媒体文件的代码 var projection arrayOf MediaStore Video Media DISPLAY NAM
如何使用 XPath 2.0 识别数字序列中的重复值？

我有一个 XPath 表达式它为我提供了一系列值如下所示 1 2 2 3 4 5 5 6 7 这很容易转换为一系列唯一值1 2 3 4 5 6 7 using distinct values 但是我想要提取的是重复值列表 2 5 我想
在哪里可以下载 Jai 和 Jai-imageio？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我需要获取 a 的像素颜色TIFF图片如果您知道任何替代方案Jai and Jai imageio请告诉我干得好 http www oracle
Application.Run 处的 CallbackOnCollectedDelegate(new Form1())

我制作了一个非常小的应用程序使用 SlimDX 捕获游戏中的屏幕我按左键捕获捕获有效至少当我单击表单本身时但是一旦我单击 Firefox 或任何其他应用程序我就会收到此异常对 CaptureScreen CaptureScre
R - XTS：从缺少行的每日时间序列中获取每个月的第一个日期和值

我有一个每日时间序列作为myxtsxts 对象在R 日期格式为 d m y 现在我想将原始时间序列减少为仅采用该系列中每个月的第一个日期和值的时间序列 myxts indexmday myxts 1 返回包含 d m y 且 d 1 的序
tomcat错误“打开的文件太多”

我有一个应用程序在 tomcat 上运行有时会出现以下错误 SEVERE Socket accept failed java net SocketException Too many open files at java net Plai
AWS CloudWatch：EndpointConnectionError：无法连接到终端节点 URL

我只是按照这些说明进行操作 Link http docs aws amazon com AmazonCloudWatch latest DeveloperGuide QuickStartEC2Instance html 5D 以在我的 EC
如果有“replaceWith”，则“fadeOut”不起作用。？

当我使用fadeOut and replaceWith在一起时淡出不起作用但如果我只使用fadeOut有效我想将它们一起使用我的代码中怎么样 ajax type POST url url data dataString cache
如何在 Xcode 中更新 Swift 依赖项

在我创建一个带有依赖项的新 swift 包后我调用swift package generate xcodeproj 如果我的依赖项有新版本我会调用swift package update 我的依赖项的新版本已下载并构建但 Xcode
MvvmCross 和 Xcode 故事板

mvvmcross v3 支持情节提要 xcode 吗 If yes how There is an example Thanks MvvmCross 不太适合故事板原因是故事板中有一些逻辑例如Segue导航它真正属于 MvvmCro
为什么我在这里遇到被零除的错误？

所以我正在关注这个文档中的教程 https pytorch org tutorials beginner data loading tutorial html在自定义数据集上我使用的是 MNIST 数据集而不是教程中的奇特数据集这是D
PHP - 引用重定向脚本

通常在搜索答案时我发现某些网站将允许您阅读它们提供的信息如果引荐来源网址是 google com 然而如果您直接链接到该信息该信息将不可用我正在寻找的是最小的 PHP 脚本它将设置我选择的引用和目的地如下所示 http ex
扑。 - 如何在Gridview中拥有动态crossAxisCount

我有一个 GridView 我希望 crossAxisCount 根据设备大小特别是移动设备 crossAxisCount 3 和平板电脑 crossAxisCount 4 进行更改我是 Flutter 新手我知道有 MediaQue
Install4j Java最低版本似乎不起作用

我们使用 Install4j 7 0 6 并将 Java 最低版本设置为 10 0 1 我们将 Java 10 0 1 捆绑到媒体文件中当我们用 Java 9 VM 替换附带的 JVM 时我们的应用程序仍然会启动我们是否只是误解了 J
二元运算符“+”不能应用于两个 CGFloat 操作数？

用 Swift 编码并得到上述错误消息是否掩盖了其他内容或者您真的不能添加两个 CGFloat 操作数吗如果不是为什么到底不呢 EDIT 我想要做的代码没有什么特别的有趣的是上面的错误消息 VERBATIM 是 Swift
使用 git bash 时，使用 base-href 进行 Angular-cli 构建也会返回程序文件夹

我正在尝试在 Windows 7 Pro 计算机上的 MINGW64 docker 框中使用 angular cli 构建我的 Angular 项目在 git bash 中我使用的命令是 ng build prod base href
无法使用 JSON 结果将数据呈现到网格列中

我有一家网格商店里面有类似的东西 var gridStore Ext create Ext data Store proxy type ajax actionMethods read POST url getECIAgentWrapper
如何修复“类扩展值未定义不是构造函数或 null”NodeJS

我有 3 个文件结构按以下顺序排列所有这些都包含 1 个类 main js extends events events js extends base base js 我已经研究了这些答案但我的问题似乎与以下人员描述的不同类型错误
为什么我们需要在Hadoop程序中明确设置输出键/值类？

在 Hadoop 权威指南一书中有一个示例程序代码如下 JobConf conf new JobConf MaxTemperature class conf setJobName Max temperature FileInputFo

为什么我们需要在Hadoop程序中明确设置输出键/值类？

为什么我们需要在Hadoop程序中明确设置输出键/值类？ 的相关文章

随机推荐

热门标签

为什么我们需要在Hadoop程序中明确设置输出键/值类？的相关文章