Hadoop Streaming的基本原理与参数解析

2023-05-16

Hadoop Streaming原理介绍

在这里插入图片描述
Hadoop是基于hdfs和MapReduce的分布式框架。由于hadoop是基于java语言的，对于其他语言实现map reduce操作不太方便，因此出现了hadoop streaming。

hadoop streaming可以将各种非java语言的脚本（script）或者可执行文件（executable）作为map和reduce函数（当然java的更可以）。其基本的方法就是将输入和输出都通过标准输入输出流来进行。这样，我们就可以从标准输入读取数据，进行map操作，传给reduce，再进行合并，输出到标准输出。我们发现，这个过程中，并没有提到具体的语言，因为都是在标准的I / O stream中操作的。

可执行文件可以是python的一个.py脚本，也可以是一个自定义的.sh的shell脚本。或者直接用linux自带的函数，如 cat， wc 等。

标准输入输出，在shell脚本中，可以用cat 等方式，而输出则可以用 > 或者管道符号 | 。在c中就是stdio，c++里是cin和cout。python中就是sys.stdin和print。等等。只要从标准输入拿数据，并且写到标准输出中，hadoop streaming都能正确地运行。

hadoop streaming的基本原理示意图如下：

在这里插入图片描述
可以看到，输入首先在hdfs上进行split，然后分别用mapper处理，然后经过shuffle&sort，进入reducer，汇合，得到最终结果。可以看到，这里深颜色的mapper和reducer就是我们的可执行文件或者脚本。而从streaming java mapper/reducer可以看出，实际上是hadoop streaming对自定义的mapper和reducer进行了一个java的封装，在封装的mapper和reducer内部，输出输出是用stdin和stdout传的，消除了不同语言脚本的差异。相当于开了一个java 的MapReduce，然后再运行自定义脚本，并将输入的k-v对转成用stdin，通过管道喂给自定义脚本，得到输出后，通过stdout传出来，再重新整理成k-v对。

下面我们看看实际中的hadoop streaming是如何使用的。

Hadoop Streaming的用法和参数简介

hadoop streaming的基本形式如下所示：

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -mapper /bin/cat \
    -reducer /bin/wc

首先是hadoop的二进制文件路径，然后jar，运行hadoop-streaming.jar这个jar包，后面跟着一些参数。输入输出的存放位置，以及mapper和reducer的可执行文件。在上面，我们的mapper就是linux 中的cat函数，而reducer则是wc函数。因此这个脚本的作用就是，将所有输入cat起来，然后统计一下字数。

下面我们来看下hadoop streaming的各种参数：

bin/hadoop command [genericOptions] [streamingOptions]

这里，通用option在前面，streaming的在后面。所谓通用的option指的是如下这些参数，即在hadoop中本身也存在的参数：
在这里插入图片描述
比如，-conf指定配置文件，在直接用hadoop操作是也可以这样使用。同理，-D表示和directory相关的一些参数，它的形式比如：

   -D mapred.local.dir=/tmp/local
   -D mapred.system.dir=/tmp/system
   -D mapred.temp.dir=/tmp/temp

-D的参数常用的有以下几个：

-D mapred.job.name 就是给提交到hdfs的job起个名字
-D mapred.job.priority job的优先级，有五种取值：LOW、VERY_LOW、NORMAL、HIGH、VERY_HIGH 
-D mapred.job.map.capacity 最多同时运行map数量
-D mapred.job.reduce.capacity 最多同时运行reduce数量
-D mapred.map.tasks map任务数
-D mapred.reduce.tasks reduce任务数

而streaming options就是hadoop streaming特有的一些参数，主要包括以下几个：

-input : 输入文件路径，是hdfs集群上的路径
-output : 输出路径，也是集群的
-mapper ： mapper脚本名，或者可执行文件名称，比如 "cat"/"mypyscript.py" 等
-reducer ： reduer脚本或可执行文件名，如"cat"或者py文件名等
-file ： 随job提交的文件路径，这里是本地路径

在执行hadoop streaming时，mapper和reducer脚本不一定都在集群上，当集群上没有对应的mapper和reducer时，需要通过-file，把所需要的所有文件都提交上来（和job一起）。比如，在执行mapper的时候，需要用到脚本my.py，以及一个字典 mydict.dict，那么，可以这么写：

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -mapper my.py \
    -reducer cat \
    -file my.py \
    -file mydict.dict

这里补充一点，在普通场景下，我们的程序较为复杂，体量较大，而数据则很方便可以下载到本地，这种情况下，我们的程序不动，而数据需要被下载过来。而在大数据场景下，数据体量非常之大，而我们的程序的操作则比较简单，因此，采用了相反的策略，即数据不动，将脚本传过去找数据，然后在hdfs上运算。

我只能期待着，
那一天——
地下的烈火冲腾，
把这活棺材和我一齐烧掉，
我应该在烈火和热血中
得到永生。
—— 叶挺《囚歌》

2019年11月5日00:17:13

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)