多个输出路径（Java - Hadoop - MapReduce）

2024-01-01

我做了两项 MapReduce 作业，我希望第二项作业能够将结果写入两个不同目录中的两个不同文件中。我想要某种类似于 FileInputFormat.addInputPath(.., multiple input path) 的东西，但对于输出。

我对 MapReduce 完全陌生，并且我有一个特殊性，就是在 Hadoop 0.21.0 中编写我的代码我用context.write(..)在我的Reduce步骤中，但我不知道如何控制多个输出路径......

谢谢你的时间！

我的第一份工作中的reduceCode，向您展示我只知道如何输出（它进入 /../part* 文件。但现在我想要的是能够为不同的输出指定两个精确文件，具体取决于钥匙）：

public static class NormalizeReducer extends Reducer<LongWritable, NetflixRating, LongWritable, NetflixUser> {
    public void reduce(LongWritable key, Iterable<NetflixRating> values, Context context) throws IOException, InterruptedException {
        NetflixUser user = new NetflixUser(key.get());
        for(NetflixRating r : values) {
            user.addRating(new NetflixRating(r));
        }
        user.normalizeRatings();
        user.reduceRatings();
        context.write(key, user);
    }
}

EDIT:所以我按照你提到的最后一条评论中的方法做了，阿马尔。我不知道它是否有效，我的 HDFS 还有其他问题，但在我忘记之前，为了文明，让我们把我的发现放在这里：

http://archive.cloudera.com/cdh/3/hadoop-0.20.2+228/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html http://archive.cloudera.com/cdh/3/hadoop-0.20.2+228/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html

MultipleOutputs 不能代替 FormatOutputFormat。您可以使用 FormatOutputFormat 定义一个输出路径，然后可以使用多个 MultipleOutputs 添加更多输出路径。
addNamedOutput方法：字符串namedOutput只是一个描述的单词。
您实际上在 write 方法中定义路径，即 String baseOutputPath arg。

所以我按照你提到的最后一条评论中的方法做了，阿马尔。我不知道它是否有效，我的 HDFS 还有其他问题，但在我忘记之前，为了文明，让我们把我的发现放在这里：

MultipleOutputs 不能代替 FormatOutputFormat。您可以使用 FormatOutputFormat 定义一个输出路径，然后可以使用多个 MultipleOutputs 添加更多输出路径。 addNamedOutput方法：字符串namedOutput只是一个描述的单词。您实际上在 write 方法中定义路径，即 String baseOutputPath arg。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

多个输出路径（Java - Hadoop - MapReduce）的相关文章

我是否需要安装 SQLite 才能使 SQLiteJDBC 正常工作？

我想我只是没有明白如果我的计算机上尚未安装 SQLite 并且我想编写一个使用嵌入式数据库的 Java 应用程序并且我将 SQLiteJDBC JAR 下载导入到我的项目中那么这就是我所需要的吗或者我是否需要先安装 SQLit
使用 Java 的 Apache Http 摘要身份验证

我目前正在开发一个 Java 项目但无法使 http 摘要身份验证正常工作我尝试使用 Apache 网站但没有帮助我有一个需要 HTTP 摘要身份验证的网站 DefaultHttpClient httpclient new Defa
Netbeans 8.1 Gnome 3 GTK+ UI 字体和选项卡高度

我刚刚在运行 GNOME 3 桌面的 Ubuntu 16 04 上安装了 NetBeans 8 1 如果可能的话我想继续使用 IDE 的 GTK 外观和感觉但 UI 上的字体尤其是选项卡中的字体太小且重叠我尝试添加 fontsiz
Java 的支持向量机？

我想用Java编写一个智能监视器它可以随时发出警报detects即将到来的性能问题我的 Java 应用程序正在以结构化格式将数据写入日志文件
为什么即使我的哈希码值相同，“==”也会返回 false

我写了一个像这样的课程 public class HashCodeImpl public int hashCode return 1 public static void main String args TODO Auto generat
如何调试“com.android.okhttp”

在android kitkat中 URLConnection的实现已经被OkHttp取代如何调试呢 OkHttp 位于此目录中 external okhttp android main java com squareup okhttp 当
Runtime.exec 处理包含多个空格的参数

我怎样才能进行以下运行 public class ExecTest public static void main String args try Notice the multiple spaces in the argument Str
Mockito 使用 @Mock 时将 Null 值注入到 Spring bean 中？

由于我是 Spring Test MVC 的新手我不明白这个问题我从以下代码中获取了http markchensblog blogspot in search label Spring http markchensblog blogsp
在 Java 中如何找出哪个对象打开了文件？

我需要找出答案哪个对象在我的 Java 应用程序中打开了一个文件这是为了调试因此欢迎使用工具或实用程序如果发现哪个对象太具体了这class也会很有帮助这可能很棘手您可以从使用分析器开始例如VisualVM http visua
如何在java中将日期格式从YYMMDD更改为YYYY-MM-DD？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我从机器可读代码中获取日期格式为 YYMMDD 如何将其更改为 YYYY MM DD 例如我收到 871223 YYMMDD 我想把它改成
Java Applet 中的 Apache FOP - 未找到数据的 ImagePreloader

我正在研究成熟商业产品中的一个问题简而言之我们使用 Apache POI 库的一部分来读取 Word DOC 或 DOCX 文件并将其转换为 XSL FO 以便我们可以进行标记替换然后我们使用嵌入到 Java 程序中的 FOP 将
如何使用 JMagick 转换色彩空间？

如何使用 JMagick API 转换色彩空间例如 CMYK gt RGB 和 RGB gt CMYK None
如何区分从 Saxon XPathSelector 返回的属性节点和元素节点

给定 XML
将 JavaFX FXML 对象分组在一起

非常具有描述性和信息性的答案将从我这里获得价值 50 声望的赏金我正在 JavaFX 中开发一个应用程序对于视图我使用 FXML
将 JScrollPane 添加到 JFrame

我有一个关于向 Java 框架添加组件的问题我有一个带有两个按钮的 JPanel 和一个添加了 JTable 的 JScrollPane 我想将这两个添加到 JFrame 中我可以将 JPanel 添加到 JFrame 或将 JScro
Hibernate 本机查询 - char(3) 列

我在 Oracle 中有一个表其中列 SC CUR CODE 是 CHAR 3 当我做 Query q2 em createNativeQuery select sc cur code sc amount from sector cost
列表过滤器内的 Java 8 lambda 列表

示例 JSON id 1 products id 333 status Active id 222 status Inactive id 111 status Active id 2 products id 6 status Active
Log4j2 ThreadContext 映射不适用于parallelStream()

我有以下示例代码 public class Test static System setProperty isThreadContextMapInheritable true private static final Logger LOGG
Java/Python 中的快速 IPC/Socket 通信

我的应用程序中需要两个进程 Java 和 Python 进行通信我注意到套接字通信占用了 93 的运行时间为什么通讯这么慢我应该寻找套接字通信的替代方案还是可以使其更快更新我发现了一个简单的修复方法由于某些未知原因缓冲输出流似
Java RMI - 客户端超时

我正在使用 Java RMI 构建分布式系统它必须支持服务器丢失如果我的客户端使用 RMI 连接到服务器如果该服务器出现故障例如电缆问题我的客户端应该会收到异常以便它可以连接到其他服务器但是当服务器出现故障时我的客户端什么也

随机推荐

_users数据库不存在

我克隆了一些人的网络应用程序并尝试运行他们提供的 js 脚本来从数据库中提取数据虽然我可以顺利地运行整个项目但这个特定的脚本会产生错误 CouchError not found Database does not exist at R
Django，内容安全策略指令

我正在尝试使用以下命令将 font awesome 导入到我的应用程序中这会在 JS 控制台中返回以下错误拒绝加载样式表 http maxcdn bootstrapcdn com font awesome 4 3 0 css font
cp：之后缺少目标文件操作数

我正在尝试进行完整备份并将所有文件从一个目录复制到另一个目录 bin bash getting files from this directory PROJECTDIRECTORY Project3 Copied to this direc
列表视图中的图像在视图之外时不会从内存中释放

我正在垂直显示来自互联网的图像ListView 我使用获取图像http get 不使用缓存的网络图像因为我不想缓存图像然后我插入图像Uint8List into image memory 发生的情况是当用户滚动列表并且加载图像时内存
如何将包含两个项目的解决方案部署到Azure App Service？

我正在尝试最大限度地降低在 Azure 应用服务中运行 Web 应用程序的成本我有一个包含两个 Web 项目的 Visual Studio 2017 解决方案 Web 和 API 均为 NET Core 整个解决方案是单个 GitHub
如何替换 php 中已弃用的 set_magic_quotes_runtime ？

当我尝试运行我必须使用但没有编写的 php 脚本时我收到此消息 Deprecated Function set magic quotes runtime is deprecated in opt lampp htdocs webEchan
Bambuser ffmpeg - “arm-linux-androideabi-gcc 无法创建可执行文件。”

我知道这可能与某些问题重复但这些线程的答案对我没有帮助我正在尝试使用 Bambuser 的 ffmpeg 为 Android 编译 ffmpeg 库我下载了客户端版本 1 3 7 至 1 6 0 的存档 http bambuser c
如何使用Resources.resx链接图像

我在 Resources resx 中包含了一个图标文件我希望将其显示在堆栈面板内的 TreeViewItem 上 1 ico 文件可以用于此目的吗还是必须是 bmp 或 jpg 2 在XAML中你如何设置源以下代码对我不起作用
shell_plus 安装 Django 时出现错误 - ImportError: 无法导入名称 'Type

安装 django extensions 后尝试启动 shell plus 时出现以下错误这是我遵循的步骤 1 使用安装的 django extensions pip install django extensions 2 Added d
Mathematica 中具有两个数据集的 ListPlot

假设我有理由保持数据集独立是否有更干净的方法来执行以下操作 x 1 2 3 y 1 4 9 ListPlot Partition Riffle x y 2 Thanks 我不认为蒂莫的解决方案是标准的这里有两种方法使用Transpos
是否对 BeanCreationException / ApplicationContext 加载问题有更友好的看法

诊断弹簧接线问题通常涉及挖掘堆栈跟踪中的很长的消息如下所示 Caused by org springframework beans factory BeanCreationException Error creating bean wit
富文本编辑器[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我想为网站构建一个富文本编辑器我该
留意 Wicket 的更新房产

在我当前的项目中我们需要实现一种让短信发送者通过上传属性文件来管理检票口消息国际化的方法另请参阅这个问题管理国际化检票口应用程序 https stackoverflow com questions 5140429 administr
Visual Studio Code 显示“需要 Java 11 或更高版本才能运行。请下载并安装最新的 JDK”

今天 Visual Studio Code 开始向我显示一个弹出窗口需要 Java 11 或更高版本才能运行请下载并安装最新的 JDK 我需要使用 JDK 8 在 Apache Beam 上工作这是最后支持的版本我一直在努力解决这个
使用 JOOQ 查找 PostgreSQL 中时间戳（以秒为单位）之间的差异

我需要使用 JOOQ 查找两个时间戳之间的差异以秒为单位我已经使用原始 SQL 查看了 StackOverflow 上的一些答案但是我没有找到使用 JOOQ 实现它的方法以下是我发现的一些使用原始 SQL 的解决方案查找 Post
Stripe.js - 解决无法读取未定义的属性“stripeToken”

我正在使用 Stripe 构建我的第一个基本 Express 应用程序Checkout 该应用程序呈现正确但当我提交表单时我在两个方面都收到错误stripeToken and stripeEmail 我不知道为什么它没有通过有什么帮助
Android中如何获取对应的文件图标？

每个文件类型都与其特定的相关联icon 现在如果我选择一些文件名 xxx那么我如何能够选择与关联的图标 xxx而不是未知文件的默认图标原始问题我怎样才能得到 txt or doc or png文件图标比如我现在选择filename p
C# 反序列化 json

我有如下 json data name 123 pwd 123 name 456 pwd 456 name 789 pwd 789 duration 5309 query myquery timeout 300 Using http jso
如何配置Tomcat使用1个以上的CPU？

我们有一个新的客户端目前我们正在对具有 100 个并发 http 线程的生产类服务器进行压力测试使用 Jmeter 问题是即使我们有 2 个 Xeon 处理器每个 CPU 有 4 个核心总共 8 个核心我只能看到 tomcat
多个输出路径（Java - Hadoop - MapReduce）

我做了两项 MapReduce 作业我希望第二项作业能够将结果写入两个不同目录中的两个不同文件中我想要某种类似于 FileInputFormat addInputPath multiple input path 的东西但对于输出我对

多个输出路径（Java - Hadoop - MapReduce）

多个输出路径（Java - Hadoop - MapReduce） 的相关文章

随机推荐

热门标签

多个输出路径（Java - Hadoop - MapReduce）的相关文章