在 Hadoop 中将多个文件合并为一个

2023-12-24

我将多个小文件放入我的输入目录中,我想将它们合并为一个文件,而不使用本地文件系统或编写 mapreds。有没有办法使用 hadoof fs 命令或 Pig 来做到这一点?

Thanks!


为了将所有内容保留在网格上,请使用带有单个减速器和 cat 的 hadoop 流作为映射器和减速器(基本上是 noop) - 使用 MR 标志添加压缩。

hadoop jar \
    $HADOOP_PREFIX/share/hadoop/tools/lib/hadoop-streaming.jar \<br>
    -Dmapred.reduce.tasks=1 \
    -Dmapred.job.queue.name=$QUEUE \
    -input "$INPUT" \
    -output "$OUTPUT" \
    -mapper cat \
    -reducer cat

如果你想压缩添加
-Dmapred.output.compress=true \ -Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 Hadoop 中将多个文件合并为一个 的相关文章

随机推荐