Hadoop - Map-Reduce 任务如何知道要处理文件的哪一部分？

2024-01-10

我已经开始学习 hadoop，目前我正在尝试处理结构不太好的日志文件 - 因为我通常用于 M/R 键的值通常位于文件的顶部（一旦）。所以基本上我的映射函数将该值作为键，然后扫描文件的其余部分以聚合需要减少的值。因此，[假] 日志可能如下所示：

## log.1
SOME-KEY
2012-01-01 10:00:01 100
2012-01-02 08:48:56 250
2012-01-03 11:01:56 212
.... many more rows

## log.2
A-DIFFERENT-KEY
2012-01-01 10:05:01 111
2012-01-02 16:46:20 241
2012-01-03 11:01:56 287
.... many more rows

## log.3
SOME-KEY
2012-02-01 09:54:01 16
2012-02-02 05:53:56 333
2012-02-03 16:53:40 208
.... many more rows

我想为每个键累积第三列。我有一个由多个节点组成的集群运行此作业，因此我被几个问题困扰：

1. 文件分发

鉴于 hadoop 的 HDFS 在 64Mb 块中工作（默认情况下），并且每个文件都分布在集群上，我能否确定正确的密钥将与正确的数字相匹配？也就是说，如果包含密钥的块位于一个节点中，并且包含同一密钥（同一日志的不同部分）的数据的块位于不同的机器上 - M/R 框架如何匹配这两个节点（如果根本）？

2. 块分配

对于如上所述的文本日志，每个块的截止点是如何确定的？是在一行结束之后，还是恰好在 64Mb（二进制）处？这还重要吗？这与我的#1 相关，我关心的是正确的值与整个集群上的正确的键相匹配。

3. 文件结构

M/R 处理的最佳文件结构（如果有）是什么？如果典型的日志如下所示，我可能不会那么担心：

A-DIFFERENT-KEY 2012-01-01 10:05:01 111
SOME-KEY        2012-01-02 16:46:20 241
SOME-KEY        2012-01-03 11:01:56 287
A-DIFFERENT-KEY 2012-02-01 09:54:01 16
A-DIFFERENT-KEY 2012-02-02 05:53:56 333
A-DIFFERENT-KEY 2012-02-03 16:53:40 208
...

然而，日志很大，将它们转换为上述格式会非常昂贵（时间）。我应该担心吗？

4. 岗位分配

分配的作业是否只有一个 JobClient 处理整个文件？相反，所有 JobClient 之间的键/值如何协调？再次，我试图保证我的可疑日志结构仍然会产生正确的结果。

鉴于 hadoop 的 HDFS 在 64Mb 块中工作（默认情况下），并且每个文件都分布在集群上，我能否确定正确的密钥将与正确的数字相匹配？也就是说，如果包含密钥的块位于一个节点中，并且包含同一密钥（同一日志的不同部分）的数据的块位于不同的机器上 - M/R 框架如何匹配这两个节点（如果根本）？

键和值的映射方式取决于 InputFormat 类。 Hadoop 有几个InputFormat 类，也可以定义自定义InputFormat 类。

If 文件输入格式 http://hadoop.apache.org/mapreduce/docs/r0.21.0/api/org/apache/hadoop/mapreduce/lib/input/FileInputFormat.html使用时，映射器的键是文件偏移量，值是输入文件中的行。在大多数情况下，文件偏移量被忽略，输入文件中的一行值由映射器处理。因此，默认情况下，日志文件中的每一行都将是映射器的一个值。

可能存在这样的情况：OP 中的日志文件中的相关数据可能会跨块分割，每个块将由不同的映射器处理，而 Hadoop 无法将它们关联起来。一种方法是使用 FileInputFormat#isSplitable 方法让单个映射器处理完整的文件。如果文件太大，这不是一个有效的方法。

对于如上所述的文本日志，每个块的截止点是如何确定的？是在一行结束之后，还是恰好在 64Mb（二进制）处？这还重要吗？这与我的#1 相关，我关心的是正确的值与整个集群上的正确的键相匹配。

默认情况下，HDFS 中的每个块大小正好是 64MB，除非文件大小小于 64MB 或默认块大小已被修改，否则不考虑记录边界。输入中行的某些部分可以在一个块中，而其余部分可以在另一个块中。 Hadoop 理解记录边界，因此即使记录（行）被分割成多个块，它仍然只能由单个映射器处理。为此，可能需要从下一个块传输一些数据。

分配的作业是否只有一个 JobClient 处理整个文件？相反，所有 JobClient 之间的键/值如何协调？再次，我试图保证我的可疑日志结构仍然会产生正确的结果。

不太清楚查询是什么。建议阅读一些教程并返回查询。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)