Spark相关问题
- Hadoop FileFormat接口问题
Hadoop FileOutputFormat在写入数据的时候先写到临时目录,最后写入最终目录,临时目录到最终目录的过程中需要做文件树合并,合并过程中有大量Rename操作。
FileFormat v1算法中,合并文件树操作全部在AppMaster单点执行,效率非常低,尤其是动态分区场景。为了解决AppMaster单点,社区提供了算法2,其核心思路是将合并过程并行到Task中执行,在性能上会有一定的提高,但是,如果Job执行失败,部分成功的Task会将数据写入最终数据目录,导致脏数据问题。
算法的改进重点在优化合并操作,合并的核心是解决文件何时可见的问题,断点续传功能,文件可以分片上传,上传没有结束,分片文件是不可见的
- HistoryServer问题
在作业结束的时候,Spark Driver只是dump UI的Meta到OSS,保存作业结束前的页面元信息