Spark Structured Streaming v2.4.0 - 检查点目录永远增长：*.tmp.crc 文件永远不会被删除

2024-01-15

I run Spark (2.4)读取的结构化流作业Kafka topic并使用带有水印的窗口将聚合数据写回到不同的主题。在这种配置中，Spark 需要检查点目录。问题是检查点目录的大小由于以下原因而永远增长*.crc.tmp文件永远不会被删除。这些文件存在于 commits、offsets 和 state 子目录中。我使用选项spark.sql.streaming.minBatchesToRetain为了限制保留多少历史记录，但隐藏了临时的crc文件似乎永远保留在文件系统上。

例如，让我们看看 commits 子目录中的常规文件：

ls checkpoint/commits/     
6605  6606  6607  6608  6609  6610  6611  6612  6613  6614

现在，让我们包含隐藏文件

$ls -a checkpoint/commits/ | head
.
..
..0.085caf0c-c924-411c-8907-5b1c3856de9d.tmp.crc
..1000.6c40ff1c-2ad5-4c88-a04b-1545089904db.tmp.crc
..1001.abebcebd-2cb9-49e7-a058-79735b8f1b9d.tmp.crc
..100.1c0f0619-63a5-46e4-9122-0f2ef6317d3b.tmp.crc
..1002.880fcde1-3982-4886-aa5b-c62b7542b27f.tmp.crc
..1003.68f41a4c-096e-4449-949f-9adeb5a78673.tmp.crc
..1004.57558c08-05fe-49e0-9b0e-96d278aed5eb.tmp.crc
..1005.5f653083-7e4d-4931-9cd3-c53aa0c0d524.tmp.crc

$ls -a checkpoint/commits/ | grep -c .tmp.crc
6657

经过几个小时的操作后，我仅在 commits 子目录中就有了 6000 多个文件，而在完整的检查点目录中，我有大约 100K 个文件。作业运行了几个小时。

这是 Spark 中的错误吗？有谁知道如何告诉Spark自动删除旧的*.tmp.crc files ?

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark Structured Streaming v2.4.0 - 检查点目录永远增长：*.tmp.crc 文件永远不会被删除的相关文章

Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
在S3中捕获Kubernetes Spark驱动程序和执行程序日志并在历史服务器中查看

我正在 Kubernetes 上使用 Spark submit cli 运行 Spark 3 0 0 和 Hadoop 2 7 如下所示 spark submit master k8s https api k8s my domain com
Spark 输出：日志式与进度式

spark submit两个不同集群都运行 Spark 1 2 上的输出看起来不同一个是日志式即大量消息流例如 15 04 06 14 53 13 INFO TaskSetManager Starting task 262 0 i
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下

随机推荐

JavaScript 有双浮点数精度吗？

我知道这是一个奇怪的问题但是 JavaScript 是否有能力处理双精度浮点数而不是单浮点数 64 位浮点数与 32 位浮点数 JavaScript 中的所有数字都是 64 位浮点数 Ref http www hunlock com bl
CATIA VBA 允许在 .CATScript 中使用“Scripting.Dictionary”

运行 CATScript 时其代码是从 VBA 环境复制的并且在 VBA 环境中运行时按预期运行出现以下错误脚本引擎报告了以下错误来源 Microsoft VBScript 运行时错误描述变量未定义脚本 Line 9 列 4
如何返回 Haskell 中给定字母的字母表中的下一个字母 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题似乎偏离主题因为它缺乏足够的信息来诊断问题更详细地描述您的问题或包括一个最小的例子 http stackoverflow co
用图案图像填充 SKShapeNode

我正在尝试用图像图案填充 SKShapeNode 但仍然不成功你能帮我解决这个问题或者给我一个替代方案吗我想创建一个可碰撞的自定义形状来自任何 SpriteKit 类型并填充图案图像我尝试过以下方法 UIBezierPath p
在 Odoo 中创建新组

我创建了一个新组它是一个人员组但是在查看元数据中我创建的新组没有 XML ID 我在哪里可以找到 XML ID 或添加新组的 XML ID 即使在外部 ID 中也是如此菜单我找不到 ID 如何创建或编辑自定义组打开设置 gt 用户
如何为网站制作一个搜索引擎？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想为我的网站安装一个搜索引擎这些网络搜索引擎如 Google yahoo 等是否提供免费服务或者我应该自己做 Maybe 谷
面向企业的 Google 地图移动 SDK 与 Google 地图 Android API

我们正在使用 google 地图 android api 2 0 在我们的 android 应用程序中提供地图功能在我们的应用程序中谷歌地图将用于捕获和显示以下用例的位置 Whenever a client opens the appl
如何在 TypeScript 中迭代自定义文字类型？

我在 TypeScript 中定义了一个自定义文字类型 export type Market au br de 现在我想迭代每个可能的Market无需创建数组Market 首先因为它feels多余的我可能会忘记添加一个选项 const
使用 wp_insert_post 插入帖子 ID

插入新帖子时如何选择帖子 ID 例如 post array ID gt 3333 comment status gt open post content gt hi world post name gt title 1 post statu
当输入大小不同时如何进行机器学习？

在标准食谱机器学习中我们在矩形矩阵上进行操作也就是说我们所有的数据点都具有相同数量的特征我们如何应对所有数据点具有不同数量特征的情况例如如果我们想做视觉分类但所有图片的维度都不同或者如果我们想做情感分析但所有句子都有不同数
按类调用CKEditor

我需要自动调用 CKEditor 的多个实例实际上我使用该函数 CKEDITOR replace editor1 其中 editor1 是我想要显示我的 CKEditor 的 div 的 id 名称我使用 jQuery 来自动化这个过程
jQuery 文件下载插件

我从以下位置导入了这个插件的js文件这个网站 https github com johnculviner jquery fileDownload blob master src Scripts jquery fileDownload js如
在 VB.NET 中解析 Google JSON 响应

我正在尝试解析 google 的 JSON 响应这就是我目前所拥有的 Dim x As New System Web Script Serialization JavaScriptSerializer Dim gJson As Strin
swig 和 python 的向量<向量 >参数

我试图弄清楚如何使用 SWIG 来包装一个将 2d 向量返回给 python 的 C 函数我有文件functions h include
Angular2 fire 没有导出成员“FirebaseListObservable”

这是我的 package json dependencies angular cdk 2 0 0 beta 8 angular common 4 3 4 angular compiler 4 3 4 angular core 4 3 4 o
寻找一个与 PayPal 兼容的轻量级 ASP.net 购物车 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我目前正在开发一个简单的电子商务网站我正在寻找一个轻量级非托管 ASP net 购物车解决方案需要
jqGrid：如何更改单元格填充

我在谷歌托管的 jQueryUI1 8 2 和 jQuery1 4 2 上使用 jqGrid3 6 5 我想更改 jqGrid 的单元格填充出于测试目的我想将每个单元格周围的宽度设置为 10px 我在谷歌搜索时遇到的唯一选项如下使用
安装 Google Cloud SDK 时找不到 gcloud 命令

我在 Mac 上尝试在终端中使用此命令安装 Google Cloud SDK 包括 gcloud 命令行实用程序 curl https sdk cloud google com bash 如所见https cloud google com
使用数据库中的数据构建排名系统

我正在构建一个排名系统该系统从数据库中获取数据总计并将其从最高到最低进行排名代码如下 data array A gt 19 B gt 18 C gt 17 D gt 17 E gt 16 F gt 15 Populate the a
Spark Structured Streaming v2.4.0 - 检查点目录永远增长：*.tmp.crc 文件永远不会被删除

I run Spark 2 4 读取的结构化流作业Kafka topic并使用带有水印的窗口将聚合数据写回到不同的主题在这种配置中 Spark 需要检查点目录问题是检查点目录的大小由于以下原因而永远增长 crc tmp文件永远不会被删除

Spark Structured Streaming v2.4.0 - 检查点目录永远增长：*.tmp.crc 文件永远不会被删除

Spark Structured Streaming v2.4.0 - 检查点目录永远增长：*.tmp.crc 文件永远不会被删除 的相关文章

随机推荐

热门标签

Spark Structured Streaming v2.4.0 - 检查点目录永远增长：*.tmp.crc 文件永远不会被删除的相关文章