在Hadoop中,您可以使用分布式缓存来复制每个节点上的只读文件。 Spark 中的等效方法是什么?我了解广播变量,但这仅适用于变量,而不适用于文件。
看一下 SparkContext.addFile()
在每个节点上添加要与此 Spark 作业一起下载的文件。传递的路径可以是本地文件、HDFS(或其他 Hadoop 支持的文件系统)中的文件,也可以是 HTTP、HTTPS 或 FTP URI。要访问 Spark 作业中的文件,请使用 SparkFiles.get(fileName) 查找其下载位置。
如果递归选项设置为 true,则可以给出目录。目前目录仅支持 Hadoop 支持的文件系统。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)