Hadoop流作业中使用分布式缓存机制将文件传输到节点时,作业完成后系统是否会删除这些文件?如果它们被删除(我认为是这样),有没有办法使缓存保留用于多个作业?这在 Amazon Elastic Mapreduce 上的工作方式是否相同?
我正在研究源代码,看起来文件被删除了TrackerDistributedCacheManager
当它们的引用计数降至零时,大约每分钟一次。这TaskRunner
在任务结束时显式释放其所有文件。也许你应该编辑TaskRunner
不这样做,并自己通过更明确的方式控制缓存?
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)