可能的重复:
为什么 hadoop 不能分割一个大文本文件,然后使用 gzip 压缩分割的内容? https://stackoverflow.com/questions/6511255/why-cant-hadoop-split-up-a-large-text-file-and-then-compress-the-splits-using-gz
我发现,当使用 gzip 压缩的输入文件时,Hadoop 选择仅分配一个映射任务来处理我的映射/归约作业。
gzip 压缩文件超过 1.4 GB,因此我希望许多映射器并行运行(就像使用未压缩文件时一样)
我可以做任何配置来改进它吗?
Gzip 文件无法分割,因此所有数据仅由一张地图处理。必须使用其他一些可以分割压缩文件的压缩算法,然后数据将被多个映射处理。这是一篇关于它的好文章。 (1)
编辑:这是另一篇来自 Google 的关于 Snappy (2) 的文章。
(1) http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/ http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/
(2) http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/ http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)