Hadoop - 如何收集没有值的文本输出

2024-04-05

我正在从事地图缩减工作，我想知道是否可以向我的输出文件发出自定义字符串。没有计数，没有其他数量，只有一团文本。

这是我正在思考的基本想法

public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {
        // this map doesn't do very much
        String line = value.toString();
        word.set(line);
        // emit to map output
        output.collect(word,one);

        // but how to i do something like output.collect(word)
        // because in my output file I want to control the text 
        // this is intended to be a map only job
    }
}

这种事情可能吗？这是为了创建一个仅映射作业来转换数据，使用 hadoop 的并行性，但不一定是整个 MR 框架。当我运行此作业时，我会在 hdfs 中为每个映射器获取一个输出文件。

$ hadoop fs -ls /Users/dwilliams/output
2013-09-15 09:54:23.875 java[3902:1703] Unable to load realm info from SCDynamicStore
Found 12 items
-rw-r--r--   1 dwilliams supergroup          0 2013-09-15 09:52 /Users/dwilliams/output/_SUCCESS
drwxr-xr-x   - dwilliams supergroup          0 2013-09-15 09:52 /Users/dwilliams/output/_logs
-rw-r--r--   1 dwilliams supergroup    7223469 2013-09-15 09:52 /Users/dwilliams/output/part-00000
-rw-r--r--   1 dwilliams supergroup    7225393 2013-09-15 09:52 /Users/dwilliams/output/part-00001
-rw-r--r--   1 dwilliams supergroup    7223560 2013-09-15 09:52 /Users/dwilliams/output/part-00002
-rw-r--r--   1 dwilliams supergroup    7222830 2013-09-15 09:52 /Users/dwilliams/output/part-00003
-rw-r--r--   1 dwilliams supergroup    7224602 2013-09-15 09:52 /Users/dwilliams/output/part-00004
-rw-r--r--   1 dwilliams supergroup    7225045 2013-09-15 09:52 /Users/dwilliams/output/part-00005
-rw-r--r--   1 dwilliams supergroup    7222759 2013-09-15 09:52 /Users/dwilliams/output/part-00006
-rw-r--r--   1 dwilliams supergroup    7223617 2013-09-15 09:52 /Users/dwilliams/output/part-00007
-rw-r--r--   1 dwilliams supergroup    7223181 2013-09-15 09:52 /Users/dwilliams/output/part-00008
-rw-r--r--   1 dwilliams supergroup    7223078 2013-09-15 09:52 /Users/dwilliams/output/part-00009

如何在 1 个文件中获取结果？我应该使用身份缩减器吗？

1.实现输出.收集（字）你可以利用类 NullWritable http://hadoop.apache.org/docs/current/api/org/apache/hadoop/io/NullWritable.html。为此，您必须使用输出.collect(word, NullWritable.get())在你的映射器中。请注意，NullWritable 是单例的。

2.如果您不想拥有多个文件，可以将减速器的数量设置为 1。但这会产生额外的开销，因为这将涉及网络上的大量数据混洗。原因是，Reducer 必须从运行 Mappers 的不同机器上获取输入。此外，所有负载都将转移到一台机器上。但如果您只想要一个输出文件，您绝对可以使用一个 mReducer。conf.setNumReduceTasks(1)应该足以实现这一目标。

一些小建议：

我不建议你使用getmerge因为它将生成的文件复制到local FS。因此，您必须将其复制回 HDFS 才能进一步使用它。
如果可能的话，请使用新的 API。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop - 如何收集没有值的文本输出的相关文章

禁用 Eclipse Java 调试器的热代码替换 [重复]

这个问题在这里已经有答案了可能的重复如何在 Eclipse 中禁用热代码替换 https stackoverflow com questions 2594408 how do i disable hot code replace in
如何在spring mvc中从控制器名称+操作名称获取映射的URL？

是否有现有的解决方案可以从 Spring MVC3 中的控制器名称操作名称获取映射的 URL 例如 asp net mvc 或 Rails 中的 UrlHelper 我觉得非常有用 thx 也许你想要这样的东西 in your Co
Grails 2.3.0 自动重新加载不起作用

我最近将我们的项目升级到 grails 2 3 0 一切工作正常除了每当我更改代码时自动重新加载都无法工作的问题这包括所有项目工件控制器域服务 gsps css 和 javascript 文件我的旧版本 grails 可以正常工
改变字符串颜色

好的这是我上一个问题的延续但我有代码 private void btnTrans Click object sender EventArgs e var abrvStr inputBx Text foreach var kvp in d
使用 RecyclerView 适配器在运行时更改布局屏幕

我有两个布局文件如下所示如果列表中存在数据则我显示此布局当列表为空时我会显示此布局现在我想在运行时更改布局当用户从列表中删除最后一项时我想将布局更改为第二张图片中显示的空购物车布局 In getItemCount Recy
Java套接字：在连接被拒绝异常时重试的最佳方法？

现在我正在这样做 while true try SocketAddress sockaddr new InetSocketAddress ivDestIP ivDestPort downloadSock new Socket downloa
无法在 Spring Boot 测试中模拟 persistenceContext

我正在使用带有 Mockito 框架的 spring boot 测试来测试我的应用程序存储库类 EntityManager 之一作为参考我的班级如下所示 Repository Transactional Slf4j public cla
主线程如何在该线程之前运行？

我有以下代码 public class Derived implements Runnable private int num public synchronized void setA int num try Thread sleep 1
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
如何将 android.net.Uri 转换为 java.net.URL？ [复制]

这个问题在这里已经有答案了有没有办法从Uri to URL 我正在使用的库需要这个它only接受一个URL但我需要在我的设备上使用图像如果该方案的Uri is http or https new URL uri toString 应该
如何获取 WebElement 的父级[重复]

这个问题在这里已经有答案了我试过了 private WebElement getParent final WebElement webElement return webElement findElement By xpath 但我得到
RSA OAEP、Golang 加密、Java 解密 -BadPaddingException：解密错误

我正在尝试解密使用 RSA OAEP 在 Golang 中加密的字符串但出现 BadPaddingException 解密错误很难弄清楚我错过了什么这是Golang加密方法 func encryptString rootPEM io
在 Spring Boot Actuator 健康检查 API 中启用日志记录

我正在使用 Spring boot Actuator APIproject https imobilenumbertracker com 拥有一个健康检查端点并通过以下方式启用它 management endpoints web base
逃离的正确方法是什么？使用 Oracle 12c MATCH_RECOGNIZE 时 JDBCPreparedStatement 中的字符？

以下查询在 Oracle 12c 中是正确的 SELECT FROM dual MATCH RECOGNIZE MEASURES a dummy AS dummy PATTERN a DEFINE a AS 1 1 但它不能通过 JDBC
如何通过 Inno Setup for NetBeans 使用自定义 .iss 文件

我将 Inno Setup 5 与 NetBeans 8 一起使用并且我已经能够创建一个安装程序来安装该应用程序C users username local appname 但是我希望将其安装在C Programfiles 我如何在 Ne
Linux 上有关 getBounds() 和 setBounds() 的 bug_id=4806603 的解决方法？

在 Linux 平台上 Frame getBounds 和 Frame setBounds 的工作方式不一致这在 2003 年就已经有报道了请参见此处 http bugs java com bugdatabase view bug do
对象锁定私有类成员 - 最佳实践？（爪哇）

I asked 类似的问题 https stackoverflow com questions 10548066 multiple object locks in java前几天但对回复不满意主要是因为我提供的代码存在一些人们关注的问题
解决错误javax.mail.AuthenticationFailedException

我不熟悉java中发送邮件的这个功能我在发送电子邮件重置密码时遇到错误希望你能给我一个解决方案下面是我的代码 public synchronized static boolean sendMailAdvance String emai
如何在Java中正确删除数组[重复]

这个问题在这里已经有答案了我刚接触 Java 4 天从我搜索过的教程来看讲师们花费了大量精力来解释如何分配二维数组例如如下所示 Foo fooArray new Foo 2 3 但我还没有找到任何解释如何删除它们的信息从内存的情
启动Java项目时发生类冲突：ClassMetadataReadingVisitor将接口org.springframework.asm.ClassVisitor作为超类

我正在使用最新的Spring框架版本 3 2 2 RELEASE 开发一个Java Web项目但是现在项目启动时遇到了问题详细错误是 java lang IncompleteClassChangeError 类 org springfr

随机推荐

httplib.InvalidURL：非数字端口：

我正在尝试编写一个脚本来检查是否存在许多网址 import httplib with open urls txt as urls for url in urls connection httplib HTTPConnection url c
我如何强制浮动 DIV 匹配另一个浮动 DIV 的高度？

我的 HTML 代码只是将页面分为两列分别为 65 35 div style width 65 height 1 background color FDD017 div div div div style width 35 height
@XmlPath 在 JAXB 编组期间没有影响

我正在尝试使用创建 XMLJaxB Marshalling方法我想跳过某些子项的父标签或者可能添加新的XML某个元素的父标签因此我尝试使用 XmlPath from import org eclipse persistence oxm
R plyr，data.table，应用data.frame的某些列

我正在寻找加速我的代码的方法我正在调查apply ply方法以及data table 不幸的是我遇到了问题这里有一个small样本数据 ids1 lt c 1 1 1 1 2 2 2 2 ids2 lt c 1 2 3 4 1 2 3
如何在运行时更改android中睡眠/定时器线程的延迟？

我试图做的是每次计数器变为 5 的倍数时减少计时器延迟但是一旦代码进入 if 块它就停止递增计时器我不明白发生了什么事这是代码 thread new Thread public void run try if count 5 0
最小化 WPF 中的窗口？

使用 Windows 时如何以编程方式最小化窗口WPF 我似乎可以找到 Resize 属性 set WindowState WindowState Minimized
ListView 中重复的行

我知道这个问题已经出现过很多次了但由于某种原因我似乎无法让它发挥作用事实上在某些情况下 getView 会被多次调用但是在此处给出的示例中 http android amberfog com p 296 http android
如何检查 python 函数是否发生更改（在实时代码中）？

如果我有一个函数的引用我可以检查它的代码对象f code 获取签名然后针对此签名执行后续检查以查看代码是否已更改这很好但是如果函数的依赖项之一发生变化怎么办例如 def foo a b return bar a b 比方说foo
我应该直接访问mongodb吗？

我们正在制作android应用程序需要从mongodb数据库获取数据数据库中会有很多条目并且请求会非常频繁我们应该直接访问它还是制作一个 PHP 脚本来访问它并以 JSON 格式返回所需的结果我们应该直接访问它吗 You 确实不想
使用knitr和RStudio在外部文件中进行代码折叠

我找不到任何方法可以将语法上可接受的 RStudio 样式折叠插入到外部 R 代码文件中该文件设置为从 knitr 文档中使用或者我错过了什么有几种方法可以做到这一点 1 允许代码标头例如 knitr Q1 也许 knitr Q1
java中如何对对象进行排序？ [复制]

这个问题在这里已经有答案了可能的重复如何按属性对对象的数组列表进行排序 https stackoverflow com questions 2535124 how to sort an arraylist of objects by a
将行恢复为默认列值 mysql

我正在使用 MySQL 社区服务器 5 1 有没有一种方法可以通过一个查询将所有行设置回默认列值我刚刚添加了很多行我为大多数指定的列设置了默认值但由于某种原因所有列值都设置为 0 我想知道是否有一个查询将所有列值设置为其默认值并且
java.lang.IllegalStateException：找不到工厂javax.faces.application.ApplicationFactory的备份[重复]

这个问题在这里已经有答案了我想从 jsf 2 1 迁移到 2 2 但无法运行我的服务器 Tomcat 导致出现以下错误我谨通知您我在项目 Maven 中使用了 Hibernate Spring JSF Root WebApplicat
Windows 7 中 NASM 程序中的 I/O

我想用 NASM 汇编语言进行编程我有 NASM 2 07 和 Borland C 编译器 5 0 bcc32 我的操作系统是Windows 7 我不知道如何在Windows平台上使用NASM进行输入和输出请问你能帮我吗最简单的方法是
调试 javascript 有哪些好的技巧？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 所以我相当经常地使用 JavaScr
关于C++类中typedef函数的疑问

我需要定义一个返回类对象的函数假设我有一个名为狗的类 h 中的类声明和 cpp 中的实现当狗死时我想调用一个函数让狗管理器知道这一点在dog的SetFunc中我将收到要调用的函数 Dog h class Dog public typ
从插件 (.so) 加载 Qt UI（带图像）时遇到问题

我有一个插件可以加载并显示一个自定义小部件该小部件显示从资源文件 resources qrc 加载的图像作为 QLabel 的背景我面临的问题是加载插件后它会正确显示小部件但不显示图像我尝试将 Q INIT RESOURCE
Safari 上的 Flex-wrap 问题

我试图让两个元素填充其容器并在达到某个最小尺寸时进行包装我的代码在除 safari 之外的所有浏览器上都能完美运行而且我无法找到替代方案这似乎是 flex basis 0 的问题问题是这样的 http www cssdesk com
错误：“grep：参数列表太长”[重复]

这个问题在这里已经有答案了我正在尝试运行以下命令但出现参数太长错误你能帮我吗 HOST grep rl pattern home public html bash bin grep Argument list too long 有没有
Hadoop - 如何收集没有值的文本输出

我正在从事地图缩减工作我想知道是否可以向我的输出文件发出自定义字符串没有计数没有其他数量只有一团文本这是我正在思考的基本想法 public static class Map extends MapReduceBase implem

Hadoop - 如何收集没有值的文本输出

Hadoop - 如何收集没有值的文本输出 的相关文章

随机推荐

热门标签

Hadoop - 如何收集没有值的文本输出的相关文章