准备工作
1,首先客户端进入分布式文件系统去寻找数据块的位置
利用得到的文集文件块位置来要求名称节点返还部分块这些返还的节点会按照HADOOP中关于集群拓扑来得出客户端的距离然后进行排序
开始读取数据
1客户端利用FSDataInputStream的Read()方法读取数据,FSDataInputStream保存第一个数据块最近的数据节点,并以数据流的方式读取,直到数据块结束位置
2第一块读取结束后,FSDataInputStream关闭连接,开始寻找下一个距离客户端最近的数据节点
3客户端不仅会对按照,FSDataInputStream打开和数据节点连接,还会调用名称节点来检查下一组数据节点的位置信息当完成所有文件读取后,客户端会关闭数据流