Spark Streaming：如何在 Python 中获取已处理文件的文件名

2024-04-23

我对 Spark（老实说也是 Python）有点菜鸟，所以如果我错过了一些明显的东西，请原谅我。

我正在使用 Spark 和 Python 进行文件流处理。在我做的第一个示例中，Spark 正确地侦听给定目录并计算文件中单词的出现次数，因此我知道在侦听目录方面一切正常。

现在我试图获取出于审计目的而处理的文件的名称。我在这里读到http://mail-archives.us.apache.org/mod_mbox/spark-user/201504.mbox/%3CCANvf[电子邮件受保护]%3E http://mail-archives.us.apache.org/mod_mbox/spark-user/201504.mbox/%3CCANvfmP8OC9jrpVgWsRWfqjMxeYd6sE6EojfdyFy_GaJ3BO43_A@mail.gmail.com%3E这不是一件小事。我在这里得到了一个可能的解决方案http://mail-archives.us.apache.org/mod_mbox/spark-user/201502.mbox/%3CCAEgy[电子邮件受保护]%3E http://mail-archives.us.apache.org/mod_mbox/spark-user/201502.mbox/%3CCAEgyCiZbnrd6Y_aG0cBRCVC1u37X8FERSEcHB=tR3A2VGrGrPQ@mail.gmail.com%3E我尝试按如下方式实现它：

from __future__ import print_function

import sys

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

def fileName(data):
    string = data.toDebugString

if __name__ == "__main__":
    sc = SparkContext(appName="PythonStreamingFileNamePrinter")
    ssc = StreamingContext(sc, 1)
    lines = ssc.textFileStream("file:///test/input/")
    files = lines.foreachRDD(fileName)
    print(files)
    ssc.start()
    ssc.awaitTermination()

不幸的是，现在它不再每秒监听该文件夹，而是监听一次，输出“None”，然后什么也不做。这与有效代码之间的唯一区别是

files = lines.foreachRDD(fileName)

在我担心获取文件名（明天的问题）之前，有人能明白为什么这只检查目录一次吗？

提前致谢中号

所以这是一个菜鸟错误。我将我的解决方案发布出来，供我自己和其他人参考。

正如@user3689574 所指出的，我没有在函数中返回调试字符串。这充分解释了为什么我得到“无”。

接下来，我在函数外部打印调试信息，这意味着它从来不是 foreachRDD 的一部分。将其移动到函数中，如下所示：

def fileName(data):
    debug = data.toDebugString()
    print(debug)

这会按应有的方式打印调试信息，并按应有的方式继续侦听目录。改变它解决了我最初的问题。就获取文件名而言，这变得非常简单。

目录没有变化时的调试字符串如下：

(0) MapPartitionsRDD[1] at textFileStream at NativeMethodAccessorImpl.java:-2 [] | UnionRDD[0] at textFileStream at NativeMethodAccessorImpl.java:-2 []

这清楚地表明没有文件。当文件复制到目录中时，调试输出如下：

(1) MapPartitionsRDD[42] at textFileStream at NativeMethodAccessorImpl.java:-2 [] | UnionRDD[41] at testFileStream at NativeMethodAccessorImpl.java:-2 [] | file:/test/input/test.txt New HadoopRDD[40] at textFileStream at NativeMethodAccessorImpl.java:-2 []

通过快速的正则表达式，可以轻松地为您提供文件名。希望这对其他人有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

SparkStreaming

Spark Streaming：如何在 Python 中获取已处理文件的文件名的相关文章

中断 Select 以添加另一个要在 Python 中监视的套接字

我正在 Windows XP 应用程序中使用 TCP 实现点对点 IPC 我正在使用select and socketPython 2 6 6 中的模块我有三个 TCP 线程一个读取线程通常会阻塞select 一个通常等待事件的写入线程
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
Python 2：SMTPServerDisconnected：连接意外关闭

我在用 Python 发送电子邮件时遇到一个小问题 me my email address you recipient s email address me email protected cdn cgi l email protectio
Python，将函数的输出重定向到文件中

我正在尝试将函数的输出存储到Python中的文件中我想做的是这样的 def test print This is a Test file open Log a file write test file close 但是当我这样做时我收到
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何使用 Mysql Python 连接器检索二进制数据？

如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
如何通过索引列表从 dask 数据框中选择数据？

我想根据索引列表从 dask 数据框中选择行我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
使用for循环时如何获取前一个元素？ [复制]

这个问题在这里已经有答案了可能的重复 Python 循环内的上一个和下一个值 https stackoverflow com questions 1011938 python previous and next values inside
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

WebApi 强制操作返回 xml

我有这个动作 public IHttpActionResult SearchFor int aboItemType DTO FilterColumns filter Do stuff return Ok
单页中可以有多个 html、head 和 body 元素吗

我有多个页面被合并到一个页面中其中一些单独的页面有自己的 html head 和 body 元素拥有这些会对页面的性能产生不利影响吗 FireBug 中的 DOM 似乎是正确的每个元素只有一个第一不要这样做浏览器是very如果涉
闪亮的 R 操作按钮控制反应元素

不确定我是否应该使用这个术语基本上我有一个反应函数可以显示用户上传的 CSV 文件我想使用action button触发情节生成过程此时此刻情节总是即时生成的所以我想知道在renderPlot函数如何让action but
基于类的通用 UpdateView 内联

我有以下型号 class Cv models Model name models CharField name max length 250 objective models CharField objective max length 2
删除 Windows 窗体中的标题栏

如何删除窗口窗体顶部的蓝色边框我不知道它的确切名称您可以设置属性FormBorderStyle对于设计师中的任何一个人来说或者在代码中 this FormBorderStyle System Windows Forms FormBor
在 Windows 上通过 pip 使用 fastmath（gmp 或 mpir）构建 PyCrypto

我通过 pip 在 Windows 上安装了 PyCrypto 但无法构建 Crypto PublicKey fastmath 因为找不到 GMP 我知道有一个二进制版本虚空 http www voidspace org uk python
如何在调度代码时自动选择R中googlesheets4中的预授权帐户？

我试图弄清楚自动允许 googlesheet4 包选择我的预授权帐户来下载特定谷歌表格的方法是什么例如我想每天运行以下一次 library googlesheets4 delta lt read sheet https docs goo
找出这样一座塔中尽可能多的人

首先我们看一下问题马戏团正在设计一种塔式表演由人们站在彼此的塔顶上组成肩膀出于实用和美观的原因每个人都必须比他或她下面的人矮且轻给定马戏团中每个人的身高和体重编写一个方法来计算最大可能的人数在这样的一座塔里 EXAMPLE
React.lazy() 与 Typescript

我收到错误 Element 类型中缺少属性 default 但类型中需要属性 default 默认组件类型 ts 2322 React lazy gt import i18n locales this props lang then o
使用 corona sdk 验证电子邮件地址

在我的项目中有一个供用户填写详细信息的表单其中有一个文本字段用于输入用户的电子邮件 ID 所以我需要在 corona 项目中验证该文本字段中的电子邮件试试这个正则表达式 local email email protected cdn
ImportError：无法从“tensorflow.python.keras.engine”导入名称“network”

尝试使用 anaconda 环境导入在 Tensorflow 2 3 0 上运行的 tf agents environments 时出现此错误尝试重新安装tensorflow 仍然出现同样的错误以管理员身份运行 jupyter 笔记本
Maven：经常从远程存储库下载元数据 xml 文件

我正在使用 Maven 来处理 Java 项目我认为只有在第一次编译时才需要互联网连接来从远程存储库下载所需的库但每当我编译代码时我都会收到几条下载消息像这样的消息 Downloading http repo maven apach
CSS：将“float:right”元素移动到顶部（与列表的第一个元素对齐）

我有一系列元素最后一个元素有 css float left 我想将其显示在与第一个元素相同的高度而不是显示在列表的底部我无法更改 html 代码因此它是列表中的最后一个同时我想将其保留在右侧我怎样才能用CSS制作它 thank
JPA 枚举 ORDINAL 与 STRING

可以使用以下任一方式在 JPA 中定义枚举 Enumerated EnumType ORDINAL or Enumerated EnumType STRING 我想知道这两个定义的优点和缺点是什么我听说 ORDINAL 在 Eclipse
为 AlertDialog 的进入和退出设置动画

我必须滑入AlertDialog当它进入时当它消失时将其滑出但它不是动画那么如何让动画发挥作用呢这是我所拥有的 public class SlideDialogFragment extends DialogFragment Ove
将文件读入多维数组

我想从文件中读取数字 n n 网格并将它们复制到多维数组中一次一个 int 我有读取文件并将其打印出来的代码但不知道如何获取每个 int 我认为我需要 splitstring 方法和空白分隔符才能获取每个字符但在那之后我不确定我还
创建子列表并从上一个列表中删除值

我想在 Java 中创建一个子列表并从上一个列表中删除子列表中的值我的程序正确创建了子列表但它没有从前一个列表中删除正确的值 My code for int i 0 i lt 4 i List sub new ArrayList pr
在 django admin 中更改字段名称

我正在自定义 django admin 我想更改字段的显示名称我认为答案是here https docs djangoproject com en dev ref contrib admin 但我找不到它感谢 Meta 类我已经更改了
同一解决方案中的 ASP.NET Core 5 MVC/Razor Pages 和 Web API 项目

许多网站分为两部分 www example com 公众MVC https learn microsoft com en us aspnet core mvc overview view aspnetcore 5 0 剃刀页面 https
Spark Streaming：如何在 Python 中获取已处理文件的文件名

我对 Spark 老实说也是 Python 有点菜鸟所以如果我错过了一些明显的东西请原谅我我正在使用 Spark 和 Python 进行文件流处理在我做的第一个示例中 Spark 正确地侦听给定目录并计算文件中单词的出现次数因此我

Spark Streaming：如何在 Python 中获取已处理文件的文件名

Spark Streaming：如何在 Python 中获取已处理文件的文件名 的相关文章

随机推荐

热门标签

Spark Streaming：如何在 Python 中获取已处理文件的文件名的相关文章