我对 Hadoop 的概念有点困惑。
有什么区别Hadoop Chunk size , Split size and Block size
?
提前致谢。
块大小和块大小是一样的。分体尺寸可能不同于块/块 size.
地图缩减算法不适用于文件的物理块。它适用于逻辑输入拆分。输入分割取决于记录的写入位置。一条记录可以跨越两个映射器。
The way HDFS设置完成后,它将非常大的文件分解为大块(例如,测量为 128MB),并将这些块的三个副本存储在集群中的不同节点上。 HDFS 不知道这些文件的内容。
为了解决这个问题,Hadoop 使用存储在文件块中的数据的逻辑表示,称为输入拆分。当一个映射减少作业客户端计算输入分割,它计算出块中第一个完整记录的开始位置以及块中最后一个记录的结束位置。
如果块中的最后一个记录不完整,则输入分割包括下一个块的位置信息以及完成记录所需的数据的字节偏移量。
看看这个article http://www.dummies.com/how-to/content/input-splits-in-hadoops-mapreduce.html更多细节。
相关SE问题:
关于Hadoop/HDFS文件分割 https://stackoverflow.com/questions/9258134/about-hadoop-hdfs-file-splitting
Hadoop 中的分割大小与块大小 https://stackoverflow.com/questions/30549261/split-size-vs-block-size-in-hadoop
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)