我正在研究如何使用 Java 将包含资源依赖项文件的文件夹从 HDFS 复制到每个 Spark 执行器的本地工作目录。
我最初考虑使用 Spark-Submit 的 --files FILES 选项,但它似乎不支持任意嵌套的文件文件夹。因此,看来我必须将此文件夹放在共享 HDFS 路径上,以便在运行作业之前由每个执行器正确复制到其工作目录,但尚未找出如何在 Java 代码中正确执行此操作。
或者zip/gzip/archive这个文件夹,放在共享HDFS路径上,然后将存档解压到每个Spark执行器的本地工作目录。
任何帮助或代码示例表示赞赏。
这是配置文件的文件夹,它们是计算的一部分,应该与spark-submit主jar位于同一位置(例如数据库文件,运行作业时使用哪个jar代码,不幸的是我无法更改此依赖项,因为我我正在重用现有代码)。
问候,
-尤里
None
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)