Spark Structured Streaming v2.4.0 - 检查点目录永远增长:*.tmp.crc 文件永远不会被删除

2024-01-15

I run Spark (2.4)读取的结构化流作业Kafka topic并使用带有水印的窗口将聚合数据写回到不同的主题。在这种配置中,Spark 需要检查点目录。问题是检查点目录的大小由于以下原因而永远增长*.crc.tmp文件永远不会被删除。这些文件存在于 commits、offsets 和 state 子目录中。 我使用选项spark.sql.streaming.minBatchesToRetain为了限制保留多少历史记录,但隐藏了临时的crc文件似乎永远保留在文件系统上。

例如,让我们看看 commits 子目录中的常规文件:

ls checkpoint/commits/     
6605  6606  6607  6608  6609  6610  6611  6612  6613  6614

现在,让我们包含隐藏文件

$ls -a checkpoint/commits/ | head
.
..
..0.085caf0c-c924-411c-8907-5b1c3856de9d.tmp.crc
..1000.6c40ff1c-2ad5-4c88-a04b-1545089904db.tmp.crc
..1001.abebcebd-2cb9-49e7-a058-79735b8f1b9d.tmp.crc
..100.1c0f0619-63a5-46e4-9122-0f2ef6317d3b.tmp.crc
..1002.880fcde1-3982-4886-aa5b-c62b7542b27f.tmp.crc
..1003.68f41a4c-096e-4449-949f-9adeb5a78673.tmp.crc
..1004.57558c08-05fe-49e0-9b0e-96d278aed5eb.tmp.crc
..1005.5f653083-7e4d-4931-9cd3-c53aa0c0d524.tmp.crc

$ls -a checkpoint/commits/ | grep -c .tmp.crc
6657

经过几个小时的操作后,我仅在 commits 子目录中就有了 6000 多个文件,而在完整的检查点目录中,我有大约 100K 个文件。作业运行了几个小时。

这是 Spark 中的错误吗?有谁知道如何告诉Spark自动删除旧的*.tmp.crc files ?


None

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark Structured Streaming v2.4.0 - 检查点目录永远增长:*.tmp.crc 文件永远不会被删除 的相关文章

随机推荐

  • JavaScript 有双浮点数精度吗?

    我知道这是一个奇怪的问题 但是 JavaScript 是否有能力处理双精度浮点数而不是单浮点数 64 位浮点数与 32 位浮点数 JavaScript 中的所有数字都是 64 位浮点数 Ref http www hunlock com bl
  • CATIA VBA 允许在 .CATScript 中使用“Scripting.Dictionary”

    运行 CATScript 时 其代码是从 VBA 环境复制的 并且在 VBA 环境中运行时按预期运行 出现以下错误 脚本引擎报告了以下错误 来源 Microsoft VBScript 运行时错误 描述 变量未定义 脚本 Line 9 列 4
  • 如何返回 Haskell 中给定字母的字母表中的下一个字母 [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 这个问题似乎偏离主题 因为它缺乏足够的信息来诊断问题 更详细地描述您的问题或包括一个最小的例子 http stackoverflow co
  • 用图案图像填充 SKShapeNode

    我正在尝试用图像 图案填充 SKShapeNode 但仍然不成功 你能帮我解决这个问题或者给我一个替代方案吗 我想创建一个可碰撞的自定义形状 来自任何 SpriteKit 类型 并填充图案图像 我尝试过以下方法 UIBezierPath p
  • 在 Odoo 中创建新组

    我创建了一个新组 它是一个人员组 但是在查看元数据中 我创建的新组没有 XML ID 我在哪里可以找到 XML ID 或添加新组的 XML ID 即使在外部 ID 中也是如此菜单 我找不到 ID 如何创建或编辑自定义组 打开设置 gt 用户
  • 如何为网站制作一个搜索引擎? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我想为我的网站安装一个搜索引擎 这些网络搜索引擎 如 Google yahoo 等 是否提供免费服务 或者我应该自己做 Maybe 谷
  • 面向企业的 Google 地图移动 SDK 与 Google 地图 Android API

    我们正在使用 google 地图 android api 2 0 在我们的 android 应用程序中提供地图功能 在我们的应用程序中 谷歌地图将用于捕获和显示以下用例的位置 Whenever a client opens the appl
  • 如何在 TypeScript 中迭代自定义文字类型?

    我在 TypeScript 中定义了一个自定义文字类型 export type Market au br de 现在我想迭代每个可能的Market无需创建数组Market 首先 因为它feels多余的 我可能会忘记添加一个选项 const
  • 使用 wp_insert_post 插入帖子 ID

    插入新帖子时如何选择帖子 ID 例如 post array ID gt 3333 comment status gt open post content gt hi world post name gt title 1 post statu
  • 当输入大小不同时如何进行机器学习?

    在标准食谱机器学习中 我们在矩形矩阵上进行操作 也就是说 我们所有的数据点都具有相同数量的特征 我们如何应对所有数据点具有不同数量特征的情况 例如 如果我们想做视觉分类 但所有图片的维度都不同 或者如果我们想做情感分析 但所有句子都有不同数
  • 按类调用CKEditor

    我需要自动调用 CKEditor 的多个实例 实际上我使用该函数 CKEDITOR replace editor1 其中 editor1 是我想要显示我的 CKEditor 的 div 的 id 名称 我使用 jQuery 来自动化这个过程
  • jQuery 文件下载插件

    我从以下位置导入了这个插件的js文件这个网站 https github com johnculviner jquery fileDownload blob master src Scripts jquery fileDownload js如
  • 在 VB.NET 中解析 Google JSON 响应

    我正在尝试解析 google 的 JSON 响应 这就是我目前所拥有的 Dim x As New System Web Script Serialization JavaScriptSerializer Dim gJson As Strin
  • swig 和 python 的向量<向量 >参数

    我试图弄清楚如何使用 SWIG 来包装一个将 2d 向量返回给 python 的 C 函数 我有文件functions h include
  • Angular2 fire 没有导出成员“FirebaseListObservable”

    这是我的 package json dependencies angular cdk 2 0 0 beta 8 angular common 4 3 4 angular compiler 4 3 4 angular core 4 3 4 o
  • 寻找一个与 PayPal 兼容的轻量级 ASP.net 购物车 [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我目前正在开发一个简单的电子商务网站 我正在寻找一个轻量级非托管 ASP net 购物车解决方案 需要
  • jqGrid:如何更改单元格填充

    我在谷歌托管的 jQueryUI1 8 2 和 jQuery1 4 2 上使用 jqGrid3 6 5 我想更改 jqGrid 的单元格填充 出于测试目的 我想将每个单元格周围的宽度设置为 10px 我在谷歌搜索时遇到的唯一选项如下 使用
  • 安装 Google Cloud SDK 时找不到 gcloud 命令

    我在 Mac 上 尝试在终端中使用此命令安装 Google Cloud SDK 包括 gcloud 命令行实用程序 curl https sdk cloud google com bash 如所见https cloud google com
  • 使用数据库中的数据构建排名系统

    我正在构建一个排名系统 该系统从数据库中获取数据 总计 并将其从最高到最低进行排名 代码如下 data array A gt 19 B gt 18 C gt 17 D gt 17 E gt 16 F gt 15 Populate the a
  • Spark Structured Streaming v2.4.0 - 检查点目录永远增长:*.tmp.crc 文件永远不会被删除

    I run Spark 2 4 读取的结构化流作业Kafka topic并使用带有水印的窗口将聚合数据写回到不同的主题 在这种配置中 Spark 需要检查点目录 问题是检查点目录的大小由于以下原因而永远增长 crc tmp文件永远不会被删除