java 中的mapreduce - gzip 输入文件

2024-01-04

我在用着java,我正在尝试写一个mapreduce将接收一个包含多个的文件夹作为输入gz files.

我一直在寻找,但我找到的所有教程都解释了如何处理简单的文本文件,但没有找到任何可以解决我的问题的内容。

我在我的工作场所打听过,但只得到了我不熟悉的 scala 的参考。

任何帮助,将不胜感激。


Hadoop 检查文件扩展名以检测压缩文件。 Hadoop支持的压缩类型有:gzip、bzip2和LZO。您不需要采取任何额外的操作来使用这些类型的压缩来提取文件; Hadoop 会为您处理。

因此,您所要做的就是像编写文本文件一样编写逻辑,并传入包含 .gz 文件的目录作为输入。

但 gzip 文件的问题是它们不可分割,假设您有每个 5GB 的 gzip 文件,那么每个映射器将处理整个 5GB 文件,而不是使用默认块大小。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

java 中的mapreduce - gzip 输入文件 的相关文章

随机推荐

  • # -*- 编码:utf-8 -*- 在 python3 上 [重复]

    这个问题在这里已经有答案了 我在 Windows 上使用 Python 3 x 我应该使用 coding utf 8 我的文件上的声明 我读过很多主题 我认为答案是否定的 但我不确定 顺便说一句 我只用英语和意大利语写作 也许你还需要知道一
  • Socket.io Engine.io 问题“?EIO=4&transport=polling&t=OUAHy-a 404”

    当我尝试使用 socket io 将客户端连接到我的网站时 它只是垃圾邮件https example com socket io EIO 4 transport polling t OUAHy a 404 有时请求只是超时而不是 404 在
  • C 风格结构体声明

    我有一个关于 C 风格结构的简单问题 我正在挖掘一些示例代码 发现了一个按以下方式声明的结构 typedef struct STRUCTNAME struct contents STRUCTNAME 请注意 第二次出现 STRUCTNAME
  • TypeScript 在 jquery 函数作用域内调用类上的方法

    我有下面的 TypeScript 类 export class BrandViewModel private items ko observableArray public Add id number name string active
  • 原始查询必须包含主键

    我有一个原始的 SQL 语句views py Message objects raw SELECT s1 ID s1 CHARACTER ID MAX s1 MESSAGE MESSAGE MAX s1 c occurrences FROM
  • 对于这种 PHP 按值调用行为有合理的解释吗?还是 PHP 的 bug?

    PHP 5 5 12 考虑一下
  • 多态模型的骨干集合

    我有一系列动物 App Collections Animals extends Backbone Collection model App Animal url animals returns json 这些动物类别 App Models
  • BinaryWriter 字节序问题

    我正在使用 BinaryWriter 类将二进制文件写入磁盘 当我调用 Write 方法并传递无符号短值时 它会以小端格式写入 例如 bw Write 0xA000 将二进制文件中的值写入为 0x00 0xA0 有没有办法让 BInaryW
  • 如何列出特定 S3 存储桶中的所有文件?

    我在我的项目中使用 AWS S3 存储桶 在其中使用 API 上传图像和列出图像 效果非常好 现在我想列出特定 S3 存储桶 文件夹的所有文件 特定存储桶的对象列表 这是我的 S3 存储桶的屏幕截图 我尝试给存储桶命名 例如 wevieu
  • 以编程方式指定 Django 模型属性

    我想以编程方式向 Django 模型添加属性 在类创建时 定义模型类时 此后模型在运行时不会改变 例如 假设我想定义一个Car模型类并想添加一个price给定货币列表的每种货币的属性 数据库列 这个货币列表应该被认为是一个不会改变运行时间的
  • 无法将 IMAPInputStream 转换为 Multipart

    在Java项目中 我可以从gmail服务器接收邮件 但我想收到身体的包裹部分 在这个代码示例中我的最后一个message messages length 1 是多部分 混合的 调试是通过if块 但它落入 catch 块并给了我以下消息 线程
  • Gradle 中的相对项目依赖关系?

    指定 Gradle 项目依赖项时 我可以避免使用完整的绝对项目名称并使用相对项目名称吗 即在我的示例中 我不想在引用 domain a 时显式指定 app a Directory structure app a domain a build
  • 基于 unquote-splicing 排除多列(!!!)

    试图排除 multiple调用中的列tidyr gather 它们通过a作为我的函数的输入字符向量参数 输出shiny selectInput 而不是通过 in a 程序化的 way 我该如何使用整洁的评估功能来做到这一点 由于我通过单个函
  • gcc:设备上没有剩余空间?

    我试图在 Ubuntu 10 中使用简单的 gcc 命令编写一些 C 代码 但由于某种原因 我不断收到错误 Cannot create temporary file in tmp No space left on device 但问题是 我
  • 将 json 文本作为命令行参数传递

    我正在尝试将以下 JSON 文本传递到我的 python 代码中 platform android version 6 0 1 我的代码如下 import sys import json data json loads sys argv 1
  • 为什么绝对位置元素会根据其父元素的右边界换行?

    为什么绝对定位元素依赖于其父元素进行文本换行 没有position absolute从流中删除一个元素 我正在寻求消除这个界限 这就像一个暗示max width我不想要的 我希望另一个开发人员能够设置这个max width 而不用担心这个任
  • 如何在堆栈和堆对象之间进行转换

    Example Class obj1 Class obj2 void doThis Class obj void create Class obj1 new Class Class obj2 doThis obj1 doThis obj2
  • 垃圾收集如何决定变量的生成

    我知道 GC 有 3 0 1 2 代 但我想知道 GC 如何决定变量的代 我认为所有变量都进入第 0 代 一段时间后移动到第 1 代和第 2 代 GC 决定代的大小是否重要 方案1 private static void Main stri
  • Ruby On Rails 4.2 生命周期结束

    Rails 4 2 的生命周期终止日期已经确定了吗 我正在尝试确定在不再支持该产品之前将我的产品升级到 Rails 5 的最后期限 因此如果我继续使用该版本将会存在安全风险 谢谢 看来有关 Rails 4 2 EOL 的答案已经在http
  • java 中的mapreduce - gzip 输入文件

    我在用着java 我正在尝试写一个mapreduce将接收一个包含多个的文件夹作为输入gz files 我一直在寻找 但我找到的所有教程都解释了如何处理简单的文本文件 但没有找到任何可以解决我的问题的内容 我在我的工作场所打听过 但只得到了