我将 Spark 与 Scala 一起使用,并且我有一个目录,其中有多个文件。
在这个目录中,我有 Spark 生成的 Parquet 文件和 Spark Streaming 生成的其他文件。
并且Spark Streaming生成一个目录_spark_元数据.
我面临的问题是当我用 Spark 读取目录时(sparksession.read.load
),它只读取 Spark Streaming 生成的数据,就像其他数据不存在一样。
有人知道如何解决这个问题吗,我认为应该有一个属性来强制 Spark 忽略火花元数据目录。
感谢您的帮助
我有同样的问题(Spark 2.4.0),我知道的唯一方法是使用掩码/模式加载文件,如下所示
sparksession.read.format("parquet").load("/path/*.parquet")
据我所知有没有办法忽略这个目录 https://stackoverflow.com/q/50847512/2390083。如果存在,Spark 会考虑它。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)