当我阅读 hadoop 权威指南时,我坚持以下句子:-
写入reduce输出确实会消耗网络带宽,但仅作为
与普通 HDFS 写入管道消耗的量差不多。
问题 :
1. 能帮我更详细地理解上面这句话吗?
2.“HDFS写入管道”是什么意思?
当文件写入 HDFS 时,幕后会发生许多与 HDFS 块一致性和复制相关的事情。到目前为止,该过程的主要 IO 组件是复制。还有与注册块的存在和状态的名称节点的双向通信。
我认为当它说“写管道”时,它只是意味着以下过程:
- 创建块
- 向 NN 注册
- 执行复制
- 对磁盘进行写入刷新
- 维护整个集群的块状态(位置、锁定、上次更新、校验和等)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)