java 中的mapreduce - gzip 输入文件

2024-01-04

我在用着java，我正在尝试写一个mapreduce将接收一个包含多个的文件夹作为输入gz files.

我一直在寻找，但我找到的所有教程都解释了如何处理简单的文本文件，但没有找到任何可以解决我的问题的内容。

我在我的工作场所打听过，但只得到了我不熟悉的 scala 的参考。

任何帮助，将不胜感激。

Hadoop 检查文件扩展名以检测压缩文件。 Hadoop支持的压缩类型有：gzip、bzip2和LZO。您不需要采取任何额外的操作来使用这些类型的压缩来提取文件； Hadoop 会为您处理。

因此，您所要做的就是像编写文本文件一样编写逻辑，并传入包含 .gz 文件的目录作为输入。

但 gzip 文件的问题是它们不可分割，假设您有每个 5GB 的 gzip 文件，那么每个映射器将处理整个 5GB 文件，而不是使用默认块大小。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Hadoop

MapReduce

gzip

java 中的mapreduce - gzip 输入文件的相关文章

使用SimpleMailMessage类发送邮件时如何使java字符串着色

我正在使用 java 中的 SimpleMailMessage 类发送邮件我将 spring 与 hibernate 结合使用我想在发送邮件时将特定字符串设置为彩色 Code String emailBody Dear username
面试问题 - 在排序数组 X 中搜索索引 i，使得 X[i] = i

昨天面试时我被问到了以下问题考虑一个 Java 或 C 数组X它已排序并且其中没有两个元素是相同的如何最好地找到索引i这样该索引处的元素也是i 那是X i i 作为澄清她还给了我一个例子 Array X 3 1 0 3 5 7 in
定制法国号码格式

我尝试为美国国家地区使用自定义数字格式到目前为止效果很好 Not something I want NumberFormat numberFormat0 NumberFormat getNumberInstance Locale US
如何使用 log4j 自动记录类中调用的每个方法

我有一个包含数据库调用的类我通常希望使用 log4j 记录该类中调用的每个方法带参数 logger debug foo id id initiated 可以自动执行此操作吗也许通过在每个方法的开头使用某种注释而不是编写每个 logge
JSP重定向和传值

我有一个 JSP 其中我重定向到另一个 jsp 例如我在该jsp中没有任何其他数据我想将值从该jsp index jsp 传递到重定向jsp login jsp 我将如何做到这一点这里的 logonInput 是在struts con
将 Spring Boot 应用程序部署到 Heroku 失败并显示“无效标志：--release -> [帮助 1]”

当我尝试将代码部署到 Heroku 时通过git push heroku master 我收到 Maven 错误 remote ERROR Failed to execute goal org apache maven plugins m
如何在Spring Security SAML示例中配置IDP元数据和SP元数据？

我想处理 Spring Security SAML 为此我开始探索Spring安全SAML http docs spring io spring security saml docs 1 0 x reference html chapte
带有 spring-kafka 的 Kafka 死信队列 (DLQ)

最好的实施方式是什么死信队列 DLQ Spring Boot 2 0 应用程序中的概念使用 spring kafka 2 1 x 来处理无法处理的所有消息 KafkaListener某些bean发送到某些预定义的Kafka DLQ主题的方
java.sql.SQLException: - ORA-01000: 超出最大打开游标数

我收到 ORA 01000 SQL 异常所以我有一些与之相关的疑问最大打开游标是否与 JDBC 连接数完全相关或者它们也与我们为单个连接创建的语句和结果集对象相关吗我们正在使用连接池有没有办法配置数据库中语句结果集对象的数量如
按位非运算符

为什么要按位运算 0 打印 1 在二进制中不是0应该是1 为什么你实际上很接近在二进制中不是0应该是1 是的当我们谈论一位时这是绝对正确的然而一个int其值为0的实际上是32位全零将所有 32 个 0 反转为 32 个 1
让 Java 与 Windows 10 Ubuntu 一起使用

我安装了 Windows 10 周年更新以便可以在 Windows 上的 Ubuntu 上尝试 Bash 看如何安装 http www howtogeek com 249966 how to install and use the lin
Java 中 LINQ 的等价物是什么？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案 Java 中 LINQ 的等价物是什么没有什么比 LINQ for Java 更好的了 Edit 现在
在Java中一个接一个地播放WAV文件

我正在尝试玩几个WAV http en wikipedia org wiki WAV文件一个接一个我尝试了这个方法 for String file audioFiles new AePlayWave file start 但这会同时播放它
Google OR-Tools：无法运行 java 示例，java.lang.UnsatisfiedLinkError：java.library.path 中没有 jniortools

我是java新手我想尝试google or tools来解决车辆路由问题只是尝试运行 java 示例here https developers google com optimization introduction run progr
仅在java中使用数组计算50的阶乘

我是java的初学者我有一个作业要编写一个完整的程序使用数组计算 50 的阶乘我无法使用像 biginteger 这样的任何方法我只能使用数组因为我的教授希望我们理解背后的逻辑我猜然而他并没有真正教我们数组的细节所以我在这
当我必须在 Netty4 编码器中调用 ByteBuf.retain() 时？

我正在编写一个以 NUL 终止 JSON 消息的编码器以便在消息碎片的情况下可以对其进行解码我找到了这个样本 gt click https github com netty netty blob master codec src mai
跳过一行GridBagLayout

我在 JFrame 上使用 GridBagLayout 我希望能够跳过一两行但将这些行显示为空白然后在这些行后面有一个按钮我在文档中找不到任何方法来执行我所描述的操作有谁知道我可以执行此操作的任何方法吗发现它比添加空组件干净得多
PostgreSQL 使用 JPA 和 Hibernate 抛出“列的类型为 jsonb，但表达式的类型为 bytea”

这是我的实体类映射到表中postgres 9 4 我正在尝试将元数据存储为jsonb在数据库中输入 Entity Table name room categories TypeDef name jsonb typeClass JsonBi
gwt - 在 RPC 调用中使用 List？

我有一个 RPC 服务方法如下 public List
文件构造函数说明

我无法理解以下文件构造函数 public File String parent String child and public File File parent String child 参数有什么作用parent and child该文件

随机推荐

# -*- 编码：utf-8 -*- 在 python3 上 [重复]

这个问题在这里已经有答案了我在 Windows 上使用 Python 3 x 我应该使用 coding utf 8 我的文件上的声明我读过很多主题我认为答案是否定的但我不确定顺便说一句我只用英语和意大利语写作也许你还需要知道一
Socket.io Engine.io 问题“？EIO=4&transport=polling&t=OUAHy-a 404”

当我尝试使用 socket io 将客户端连接到我的网站时它只是垃圾邮件https example com socket io EIO 4 transport polling t OUAHy a 404 有时请求只是超时而不是 404 在
C 风格结构体声明

我有一个关于 C 风格结构的简单问题我正在挖掘一些示例代码发现了一个按以下方式声明的结构 typedef struct STRUCTNAME struct contents STRUCTNAME 请注意第二次出现 STRUCTNAME
TypeScript 在 jquery 函数作用域内调用类上的方法

我有下面的 TypeScript 类 export class BrandViewModel private items ko observableArray public Add id number name string active
原始查询必须包含主键

我有一个原始的 SQL 语句views py Message objects raw SELECT s1 ID s1 CHARACTER ID MAX s1 MESSAGE MESSAGE MAX s1 c occurrences FROM
对于这种 PHP 按值调用行为有合理的解释吗？还是 PHP 的 bug？

PHP 5 5 12 考虑一下
多态模型的骨干集合

我有一系列动物 App Collections Animals extends Backbone Collection model App Animal url animals returns json 这些动物类别 App Models
BinaryWriter 字节序问题

我正在使用 BinaryWriter 类将二进制文件写入磁盘当我调用 Write 方法并传递无符号短值时它会以小端格式写入例如 bw Write 0xA000 将二进制文件中的值写入为 0x00 0xA0 有没有办法让 BInaryW
如何列出特定 S3 存储桶中的所有文件？

我在我的项目中使用 AWS S3 存储桶在其中使用 API 上传图像和列出图像效果非常好现在我想列出特定 S3 存储桶文件夹的所有文件特定存储桶的对象列表这是我的 S3 存储桶的屏幕截图我尝试给存储桶命名例如 wevieu
以编程方式指定 Django 模型属性

我想以编程方式向 Django 模型添加属性在类创建时定义模型类时此后模型在运行时不会改变例如假设我想定义一个Car模型类并想添加一个price给定货币列表的每种货币的属性数据库列这个货币列表应该被认为是一个不会改变运行时间的
无法将 IMAPInputStream 转换为 Multipart

在Java项目中我可以从gmail服务器接收邮件但我想收到身体的包裹部分在这个代码示例中我的最后一个message messages length 1 是多部分混合的调试是通过if块但它落入 catch 块并给了我以下消息线程
Gradle 中的相对项目依赖关系？

指定 Gradle 项目依赖项时我可以避免使用完整的绝对项目名称并使用相对项目名称吗即在我的示例中我不想在引用 domain a 时显式指定 app a Directory structure app a domain a build
基于 unquote-splicing 排除多列（!!!）

试图排除 multiple调用中的列tidyr gather 它们通过a作为我的函数的输入字符向量参数输出shiny selectInput 而不是通过 in a 程序化的 way 我该如何使用整洁的评估功能来做到这一点由于我通过单个函
gcc：设备上没有剩余空间？

我试图在 Ubuntu 10 中使用简单的 gcc 命令编写一些 C 代码但由于某种原因我不断收到错误 Cannot create temporary file in tmp No space left on device 但问题是我
将 json 文本作为命令行参数传递

我正在尝试将以下 JSON 文本传递到我的 python 代码中 platform android version 6 0 1 我的代码如下 import sys import json data json loads sys argv 1
为什么绝对位置元素会根据其父元素的右边界换行？

为什么绝对定位元素依赖于其父元素进行文本换行没有position absolute从流中删除一个元素我正在寻求消除这个界限这就像一个暗示max width我不想要的我希望另一个开发人员能够设置这个max width 而不用担心这个任
如何在堆栈和堆对象之间进行转换

Example Class obj1 Class obj2 void doThis Class obj void create Class obj1 new Class Class obj2 doThis obj1 doThis obj2
垃圾收集如何决定变量的生成

我知道 GC 有 3 0 1 2 代但我想知道 GC 如何决定变量的代我认为所有变量都进入第 0 代一段时间后移动到第 1 代和第 2 代 GC 决定代的大小是否重要方案1 private static void Main stri
Ruby On Rails 4.2 生命周期结束

Rails 4 2 的生命周期终止日期已经确定了吗我正在尝试确定在不再支持该产品之前将我的产品升级到 Rails 5 的最后期限因此如果我继续使用该版本将会存在安全风险谢谢看来有关 Rails 4 2 EOL 的答案已经在http
java 中的mapreduce - gzip 输入文件

我在用着java 我正在尝试写一个mapreduce将接收一个包含多个的文件夹作为输入gz files 我一直在寻找但我找到的所有教程都解释了如何处理简单的文本文件但没有找到任何可以解决我的问题的内容我在我的工作场所打听过但只得到了

java 中的mapreduce - gzip 输入文件

java 中的mapreduce - gzip 输入文件 的相关文章

随机推荐

热门标签

java 中的mapreduce - gzip 输入文件的相关文章