配置 MapReduce 作业时使用多个 InputFormat 类

2024-01-23

我想编写一个可以处理文本和 zip 文件的 MapReduce 应用程序。为此,我想使用不同的输入格式,一种用于文本,另一种用于 zip。可以这样做吗?


从@ChrisWhite的答案延伸一点,你需要的是使用自定义InputFormat and RecordReader与 ZIP 文件一起使用。你可以在这里找到ZipFileInputFormat 示例 https://github.com/cotdp/com-cotdp-hadoop/blob/master/src/main/java/com/cotdp/hadoop/ZipFileInputFormat.java和这里示例 ZipFileRecordReader https://github.com/cotdp/com-cotdp-hadoop/blob/master/src/main/java/com/cotdp/hadoop/ZipFileRecordReader.java.

鉴于此,正如克里斯建议你应该使用MultipleInputs,如果您不需要为每种类型的文件定制映射器,我将这样做:

MultipleInputs.addInputPath(job, new Path("/path/to/zip"), ZipFileInputFormat.class);
MultipleInputs.addInputPath(job, new Path("/path/to/txt"), TextInputFormat.class);
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

配置 MapReduce 作业时使用多个 InputFormat 类 的相关文章

  • 在 catch 块中重新抛出异常是否有意义?

    从 catch 块中抛出异常只是为了记录消息以便我们确定导致异常的原因是否有意义 Code public void saveLogs Logs logs throws RemoteException try LogsOps saveLogs
  • JDT - 尝试更改类型的超类。我不知道超级类的限定名称

    我有一个程序 除其他任务外 还必须使用 JDT 更改某些类的超类 我有两个字符串 其中包含要交换的超类的限定名称 例如 org example John 和 org example Smith 并且我正在解析整个 AST 搜索扩展这些类的类
  • 如何修复安装 maven jar 插件依赖项时出现的错误?

    我正在将应用程序制作成 maven 中的 jar 文件 但是 当我从 Maven 中提取 jar 插件存储库并在终端中运行这三个命令时 mvn clean mvn compile mvn package 在 mvn package 中 我收
  • cygwin有java sdk吗?

    cygwin有java sdk吗 如果有一个使用 cygwin 文件系统和 X windows 进行显示的本机 cygwin 实现 那就太好了 不幸的是我不知道这样的版本 我认为移植 OpenJDK 也需要付出很大的努力 但我还没有尝试过
  • Java 8 中异常类型推断的一个独特功能

    在为该网站上的另一个答案编写代码时 我遇到了这个特性 static void testSneaky final Exception e new Exception sneakyThrow e no problems here nonSnea
  • Guice:当 FactoryBuilder 中提供合适的构造函数时,“找不到合适的构造函数”

    我使用 Guice 进行依赖注入 但收到此错误 1 Could not find a suitable constructor in java lang Void Classes must have either one and only
  • android.os.FileUriExposedException 在 Oreo 中引起(仅!)[重复]

    这个问题在这里已经有答案了 从 Google Play Console 中 我可以看到此异常仅发生在 Android 8 0 的设备上 android os FileUriExposedException at android os Str
  • java.time.LocalDate 到 java.util.Date

    转换的最佳方式是什么java time LocalDate to java util Date Date from dateToReturn atStartOfDay ZoneId systemDefault toInstant 我一直在尝
  • 声纳要求将这一领域定为最终目标

    我的程序中有以下代码 在与 Maven 集成后 我正在运行 SonarQube 5 对其进行代码质量检查 我面临这个错误 将此 public static processStatus 字段设为最终字段 将此 public static pr
  • 在Java中读取制表符分隔的文件

    我有以下代码来读取 Java 中的制表符分隔文件 while str in readLine null if str trim length 0 continue String values str split t System out p
  • 如何使用jdbc驱动编写事务?

    我想使用 jdbc 编写一个事务java 我尝试过这个简单的交易 BEGIN TRANSACTION NL GO NL UPDATE table SET col test where id 1010 NL GO NL COMMIT 我尝试过
  • 在仔细锁定但不受信任的代码上使用 Thread.stop()

    我知道Thread stop 已被弃用 并且有充分的理由 它通常不安全 但这并不意味着它是never安全 据我所知 在我想要使用它的上下文中它是安全的 而且 据我所知 我别无选择 上下文是一个两人策略游戏的第三方插件 以国际象棋为例 第三方
  • 我有什么理由应该嘲笑?

    我也是 Mockito 和 PowerMockito 的新手 我发现我无法使用纯 Mockito 测试静态方法 因此我需要使用 PowerMockito 对吗 我有一个非常简单的类 名为 Validate 使用这个非常简单的方法 publi
  • jsch - 发送特殊键(CTRL-C、CTRL-D 等)

    我需要向远程终端发送特殊密钥 如何使用 JSCH 做到这一点 Thanks Walter 尝试发送两个字节 0x03 0x04 Check ASCII 表 http www bbdsoft com ascii html了解更多
  • 如何强制 Spark 执行代码?

    我如何强制 Spark 执行对 map 的调用 即使它认为由于其惰性求值而不需要执行它 我试过把cache 与地图调用 但这仍然没有解决问题 我的地图方法实际上将结果上传到 HDFS 所以 它并非无用 但 Spark 认为它是无用的 简短回
  • 如何在 VSCode 中热重载 Tomcat 服务器

    我正在从 Eclipse IDE VSCode 分别用于编码 Java servlet 和 HTML CSS JS 网页 迁移到仅使用 Visual Studio Code 因为它的轻量级 我为 VSCode 安装了几个 Java 扩展 R
  • 如何在 logback 中启动时滚动日志文件

    我想配置 logback 来执行以下操作 记录到文件 当文件达到 50MB 时滚动文件 仅保留 7 天的日志 启动时始终生成一个新文件 滚动 除了最后一项 启动卷 外 我一切都正常 有谁知道如何实现这一目标 这是配置
  • 每次修改代码时都必须 mvn clean install

    我不是来自 Java 世界 但我必须为我的一个项目深入研究它 我不明白为什么每次修改或更新代码时 都必须 mvn clean install 来调试代码的最新版本 你知道为什么吗 尝试按Ctrl Shift F9 热插拔 有时会有所帮助
  • Encog:BasicNetwork:无需预先构建数据集的在线学习

    我正在尝试使用 encog 库作为强化学习问题的函数逼近器 更准确地说 我正在尝试启动并运行多层感知器 BasicNetwork 由于我的代理将根据我选择的任何 RL 算法以某种方式探索世界 因此我无法预先构建任何 BasicNeuralD
  • Java GridBagConstraints gridx 和 gridy 不工作?

    我正在尝试使用gridx and gridy定位我的按钮的约束 但它们不起作用 如果我改变gridx and gridy变量 什么也没有发生 如果我将填充更改为GridBagConstraints to NONE 仍然不行 我在这里错过了什

随机推荐

  • 如何在 Python 中将整个列表作为命令行参数传递?

    我试图将两个包含整数的列表作为参数传递给 python 代码 但sys argv i 获取字符串列表形式的参数 输入看起来像 python filename py 2 3 4 5 1 2 3 4 我发现了以下 hack 来转换列表 strA
  • python获取函数中参数的变量名[重复]

    这个问题在这里已经有答案了 我想做这样的事情 fib 1 foo arg print arg argName the name of the variable that was put in for arg foo fib 并得到这个返回
  • 带有 .gitignore 的白名单目录

    我想在一个 git 存储库中有两个目录 我选择的方法是在顶级目录中创建 git 存储库 然后使用 gitignore 将感兴趣的两个目录列入白名单 要求位于我尝试的 gitignore 文件的注释中 Blacklist everything
  • 如何在滚动时从 SliverAppBar 淡入/淡出小部件?

    当用户在屏幕上滚动时 我想从 SliverAppBar 中 淡入 和 淡出 小部件 这是我想做的事情的一个例子 这是我的代码 没有 褪色 https gist github com nesscx 721cd823350848e3d594ba
  • 如何获取QGraphicsItem坐标系中光标单击的位置?

    我有一个QGraphicsScene with QGraphicsItem添加到其中 假设我点击了地图图像 QGraphicsItem 其中绘制绿色圆圈 如何根据此获得点击位置QGraphicsItem并不是QGraphicsScene坐标
  • 在 ASP .NET Core Web API Controller 中注入 Serilog 的 ILogger 接口

    我能找到的有关在 ASP NET Core Web 应用程序中使用 Serilog 的所有示例都使用 MicrosoftILogger
  • 核心数据保存UIImage

    我在这个数据库中有一个核心数据 我应该保存图像 那么如何保存只需要 URL 的图像 请举例 大图像 gt 100 kb 不应保存在 CoreData 中 因为它确实会增加托管对象的内存占用 对于这些图像 我会将 CoreData 中的路径保
  • 是否可以将对象解构为现有变量?

    我正在尝试使用对象解构来提取变量 但这些变量已经存在 如下所示 const x 1 y 2 Those should be 1 and 2 const x y complexPoint const point x y 有没有办法在不重命名解
  • 使用 WhatsApp Cloud API 发送 Commerce Manager 目录产品

    成功将我的目录从商务管理器添加到 Whatsapp 管理器后 现在我想通过 WhatsApp 云 API 向用户发送该产品 我看到了与许可 API 相关的链接 但没有找到运气 https developers facebook com do
  • 通过(弹出)菜单退出应用程序时窗口泄漏

    我希望你能帮助我 我有一个漏窗只要我通过 弹出 菜单选项退出我的应用程序在工具栏中 如果我通过正常方法退出应用程序 一切都很好 有人可以帮忙吗 我似乎找不到错误 我正在尝试找到正确的解决方案 我声明了 2 个静态字符串变量 但我猜这不是问题
  • 如何在 PostgreSQL ORDER BY 子句中使用 ALIAS?

    我有以下查询 SELECT title stock one stock two AS global stock FROM product ORDER BY global stock 0 title 在 PostgreSQL 8 1 23 中
  • 根据字符串匹配过滤字符串向量

    我有以下向量 X lt c mama log papa log mimo png mentor log 如何检索另一个仅包含以 m 开头并以 log 结尾的元素的向量 您可以使用grepl用正则表达式 X grepl m log X
  • 将 AudioBufferList 转换为 CMSampleBuffer 会产生意外结果

    我正在尝试转换AudioBufferList我从音频单元得到的CMSampleBuffer我可以传递到AVAssetWriter保存麦克风中的音频 这种转换有效 因为我为执行转换而进行的调用不会失败 但记录最终会失败 并且我在日志中看到一些
  • 为什么我的 MVC 应用程序中有两个 web.config 文件

    Views 文件夹中有一个 应用程序的根目录中还有另一个 我想注册一个自定义处理程序 但我不明白代码应该放在哪里 我在集成模式下运行 IIS7 所以我必须添加
  • C++11 中的线程池

    相关问题 关于 C 11 C 11 std 线程池 https stackoverflow com questions 12993451 c11 stdthread pooled C 11 中的 async launch async 是否会
  • NSScrollView 具有未剪辑的内容视图?

    有没有办法设置我的滚动视图不剪辑其内容 这是一个NSTextView 我有 NSScrollView 的子类并想要它的内容not被剪裁到其边界 我尝试过重写 BOOL wantsDefaultClipping return NO in My
  • 如何让 Flask-SQLAlchemy 在出现异常时自动回滚会话?

    我想设置一个使用以下构建的应用程序Flask SQLAlchemy如果视图引发在视图代码外部冒泡的异常 即未在内部捕获 则回滚对数据库所做的所有更改 我希望它能够工作 即使某些对象在子事务中自动或直接通过session commit 类似的
  • 在keras中构建多输出模型时出错

    我正在尝试在 Keras 中创建一个多输出模型 该模型从卷积开始 旨在叠加两个独立密集层的结果 我为回归任务创建了一些随机数据 其中x1是输入和df是标签 这df包含三列 定义训练和测试拆分并形成模型后 我在拟合模型时收到错误 谁能帮我纠正
  • 如何在 Android 中的搜索输入字段旁边添加下拉菜单?

    在我的 HTC Desire Froyo 上的系统范围搜索中 我看到搜索输入字段左侧有一个小下拉菜单 允许选择我要搜索的位置 全部 网络 应用程序 我怎样才能实现这个在我的一个应用程序中 Google 开发者网站上的搜索教程没有解决这个问题
  • 配置 MapReduce 作业时使用多个 InputFormat 类

    我想编写一个可以处理文本和 zip 文件的 MapReduce 应用程序 为此 我想使用不同的输入格式 一种用于文本 另一种用于 zip 可以这样做吗 从 ChrisWhite的答案延伸一点 你需要的是使用自定义InputFormat an