我在用着java
,我正在尝试写一个mapreduce
将接收一个包含多个的文件夹作为输入gz
files.
我一直在寻找,但我找到的所有教程都解释了如何处理简单的文本文件,但没有找到任何可以解决我的问题的内容。
我在我的工作场所打听过,但只得到了我不熟悉的 scala 的参考。
任何帮助,将不胜感激。
Hadoop 检查文件扩展名以检测压缩文件。 Hadoop支持的压缩类型有:gzip、bzip2和LZO。您不需要采取任何额外的操作来使用这些类型的压缩来提取文件; Hadoop 会为您处理。
因此,您所要做的就是像编写文本文件一样编写逻辑,并传入包含 .gz 文件的目录作为输入。
但 gzip 文件的问题是它们不可分割,假设您有每个 5GB 的 gzip 文件,那么每个映射器将处理整个 5GB 文件,而不是使用默认块大小。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)