当我每天运行 Hadoop 作业时,我想覆盖/重用现有的输出目录。
实际上输出目录将存储每天作业运行结果的汇总输出。
如果我指定相同的输出目录,则会出现错误“输出目录已存在”。
如何绕过这个验证?
在运行作业之前删除目录怎么样?
您可以通过 shell 执行此操作:
hadoop fs -rmr /path/to/your/output/
或通过 Java API:
// configuration should contain reference to your namenode
FileSystem fs = FileSystem.get(new Configuration());
// true stands for recursively deleting the folder you gave
fs.delete(new Path("/path/to/your/output"), true);
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)