我正在尝试从使用 Spark 流 API“textFileStream”连续附加的文本文件中读取流数据。但无法使用 Spark Streaming 读取连续数据。 Spark中如何实现呢?
这是预期的行为。为了基于文件的源 https://spark.apache.org/docs/latest/streaming-programming-guide.html#basic-sources (like fileStream
):
- 必须通过原子地将文件移动或重命名到数据目录中来在数据目录中创建文件。
- 文件一旦移动,就不得更改。因此,如果不断追加文件,则不会读取新数据。
如果您想连续读取附加内容,则必须创建自己的源,或使用单独的进程,该进程将监视更改,并将记录推送到例如 Kafka(尽管很少将 Spark 与支持附加的文件系统结合起来)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)