使用 Spark 结构化流处理后删除文件

2024-03-31

我正在使用Spark结构化流中的文件源 http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#data-sources并想在处理完这些文件后将其删除。

我正在读取一个充满 JSON 文件的目录（1.json, 2.json等），然后将它们写入 Parquet 文件。我想在成功处理每个文件后删除它。

EDIT 2：更改了我的 go 脚本以读取源代码。新脚本 https://github.com/saulshanabrook/ici.recorder/blob/fd8110e490691cc9e98dce1fefbddba973c29deb/cleanup-files/main.go

EDIT：目前正在尝试此操作，可能会在处理文件之前删除文件。目前正在寻找更好的解决方案并研究该方法。

我通过创建暂时解决了这个问题一个 Go 脚本 https://github.com/saulshanabrook/ici.recorder/blob/8f4d1e418bf0ce9fe160ecaf4dda67dabd33c5ef/cleanup-files/main.go。它将扫描我在 Spark 中设置的检查点文件夹并处理其中的文件，以找出哪些文件已从 Spark 中写入。如果它们存在，它将删除它们。它每 10 秒执行一次。

但是，它依赖于 Spark 的检查点文件结构和表示形式 (JSON)，该结构和表示形式没有记录，并且可能随时更改。我也没有查看 Spark 源代码来查看我正在读取的文件（checkpoint/sources/0/...），是已处理文件的真实来源。不过，ATM 机似乎可以使用！此时比手动执行要好。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStructuredStreaming

使用 Spark 结构化流处理后删除文件的相关文章

Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp

随机推荐

Memcache 统计信息未使用 Rails.cache.stats 输出...Rails/Heroku

晚上好我正在尝试对 Heroku 上的 Rails 应用程序的缓存进行一些测试但 Memcachier 似乎运行得不太好我可以毫无问题地从缓存中提取值但统计数据并没有给我任何爱 gt 42 Quotes 2012 04 16 irb
Qt3D动态纹理

我正在开发包含 Qt3D 视图的软件这个 3D 视图使我们能够可视化元素对象的所有渲染部分都是使用自定义材质着色器在 QML 中完成的我能够创建一种将纹理传递到着色器以进行纹理化的材质保存纹理的QML对象是Texture2D 它的
C# Unity 错误：无法加载文件或程序集

我在 Unity 上找到了这篇演示文章看起来很简单但我收到以下错误无法加载文件或程序集 System Runtime CompilerServices Unsafe 版本 4 0 4 1 Culture neutral PublicK
在SQL中计算一个人的年龄[重复]

这个问题在这里已经有答案了可能的重复如何在 T SQL 中用年月日计算年龄 https stackoverflow com questions 57599 how to calculate age in t sql with yea
使用 Bluebird 将 Node.js 回调包装在 Promises 中

如何在 Bluebird 中使用 Promise 包装 Node js 回调这是我想到的但想知道是否有更好的方法 return new Promise function onFulfilled onRejected nodeCall f
让 Angular Material 在 Angular 库中工作

我正在尝试让 Angular 材质在 Angular 库中工作这些是我已采取的步骤创建项目 ng new test project 添加角度材质 ng add angular material 创建库 ng g library test
致命错误“不安全的存储库（'/home/repon' 由其他人拥有）”

我发现 Apache 2 的错误日志是致命的 unsafe repository home repon is owned by someone else 它发生是因为我有git rev parse symbolic full name ab
[NSArray arrayWithArray:] 和 [NSArray copy] 之间的区别

最近我经常使用数组我想知道这两行之间有什么区别 NSArray array NSArray arrayWithArray someArray and NSArray array someArray copy 哪个更快万一我们有什么NS
如何模拟 REST 模板交换？

我有一项服务我需要通过休息向外部服务器询问一些信息 public class SomeService public List
多种 MIME 类型的意图过滤器

我的问题是如何正确指定Activity处理 Manifest 文件中的不同 MIME 类型我正在尝试创建一个Activity它将处理不同的档案所以我将其添加到清单中如下所示
jQueryUI、单选按钮状态和单击事件

我有一个页面其中包含几组用于设置选项的单选按钮当用户单击特定的选项时默认情况下会使用单击事件处理程序选择其他选项该功能运行完美但按钮的视觉状态存在问题我使用 jQueryUI 的 buttonset 方法来提高美观性当我以编程
Chrome/Firefox 立即在所有 javascript onclick 事件上设置断点

我正在尝试调试第三方 HTML Javascript 页面但我无法轻松找到脚本入口点以在其上设置断点我希望调试器在任何元素的 onclick 事件处理程序上中断目前如果页面设置为类似 document getElementById
从 Javafx2.2 迁移到 Javafx8

我正在尝试将 Javafx 2 2 应用程序迁移到 Javafx 8 我在使用嵌套时遇到以下问题FXML javafx fxml LoadException Root hasn t been set Use method setRoot b
auto_now 字段未通过使用 filter() 进行更新

我在用着Django 2 0 我有一个像这样的模型 class MyModel models Model update new models CharField blank True max length 200 modified mode
我无法在 .gradle 文件夹中找到 (init.d) 文件夹！在哪里寻找它？

我决定配置离线构建依赖项在我的 android 中我正在遵循文档https developer android com studio intro studio config offline https developer android
我已经安装了 python-dotenv 但 python 找不到它

我在 Flask 项目中使用 dotenv 并且还在简化的测试环境中对其进行了测试我尝试过卸载并重新安装等但 python 找不到 dotenv 模块当启动flask时它看到有一些 env文件并告诉我安装dotenv 即使它已安装
当我在 Eclipse 中调试 PHP 脚本时，它不加载 mysql 扩展

我在 Ubuntu 10 10 上安装了 Eclipse 和 xDebug 当我将一些 php 文件调试为页面时效果很好当我尝试将其作为脚本进行调试时我给出了 mysql 扩展未加载的消息我为 PHP 可执行文件设置了以下选项可执
Spring Data Pagination 使用 JSONView 不返回任何结果

我在 REST 控制器中使用 Spring 数据分页并返回分页实体我想在 JSONViews 的帮助下控制以 JSON 形式返回的数据当我返回单个对象时我能够实现结果但是当我返回 Page 时我收到空白 JSON 作为响应以下是
在pandas中的多索引数据帧上使用滚动函数

我在 pandas 中有一个多索引数据框其中索引位于 ID 和时间戳上我希望能够计算每个 ID 的时间序列滚动总和但我似乎无法弄清楚如何在没有循环的情况下做到这一点 content io BytesIO IDs timestamp v
使用 Spark 结构化流处理后删除文件

我正在使用Spark结构化流中的文件源 http spark apache org docs latest structured streaming programming guide html data sources并想在处理完这些文件

使用 Spark 结构化流处理后删除文件

使用 Spark 结构化流处理后删除文件 的相关文章

随机推荐

热门标签

使用 Spark 结构化流处理后删除文件的相关文章