java.lang.IllegalStateException：读取增量文件时出错，使用 kafka 进行 Spark 结构化流处理

2024-01-26

我在我们的项目中使用结构化流+ Kafka 进行实时数据分析。我使用的是 Spark 2.2，kafka 0.10.2。

我在应用程序启动时从检查点进行流式查询恢复期间遇到问题。由于单个 kafka 流点派生有多个流查询，并且每个流查询都有不同的 checkpint 目录。因此，如果作业失败，当我们重新启动作业时，会有一些流查询无法从检查点位置恢复，因此会抛出异常读取增量文件时出错。这是日志：

Job aborted due to stage failure: Task 2 in stage 13.0 failed 4 times, most recent failure: Lost task 2.3 in stage 13.0 (TID 831, ip-172-31-10-246.us-west-2.compute.internal, executor 3): java.lang.IllegalStateException: Error reading delta file /checkpointing/wifiHealthPerUserPerMinute/state/0/2/1.delta of HDFSStateStoreProvider[id = (op=0, part=2), dir = /checkpointing/wifiHealthPerUserPerMinute/state/0/2]: /checkpointing/wifiHealthPerUserPerMinute/state/0/2/1.delta does not exist
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider.org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$updateFromDeltaFile(HDFSBackedStateStoreProvider.scala:410)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1$$anonfun$6.apply(HDFSBackedStateStoreProvider.scala:362)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1$$anonfun$6.apply(HDFSBackedStateStoreProvider.scala:359)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1.apply(HDFSBackedStateStoreProvider.scala:359)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1.apply(HDFSBackedStateStoreProvider.scala:358)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider.org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap(HDFSBackedStateStoreProvider.scala:358)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1$$anonfun$6.apply(HDFSBackedStateStoreProvider.scala:360)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1$$anonfun$6.apply(HDFSBackedStateStoreProvider.scala:359)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1.apply(HDFSBackedStateStoreProvider.scala:359)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1.apply(HDFSBackedStateStoreProvider.scala:358)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider.org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap(HDFSBackedStateStoreProvider.scala:358)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1$$anonfun$6.apply(HDFSBackedStateStoreProvider.scala:360)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1$$anonfun$6.apply(HDFSBackedStateStoreProvider.scala:359)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1.apply(HDFSBackedStateStoreProvider.scala:359)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1.apply(HDFSBackedStateStoreProvider.scala:358)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider.org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap(HDFSBackedStateStoreProvider.scala:358)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1$$anonfun$6.apply(HDFSBackedStateStoreProvider.scala:360)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1$$anonfun$6.apply(HDFSBackedStateStoreProvider.scala:359)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1.apply(HDFSBackedStateStoreProvider.scala:359)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1.apply(HDFSBackedStateStoreProvider.scala:358)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider.org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap(HDFSBackedStateStoreProvider.scala:358)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1$$anonfun$6.apply(HDFSBackedStateStoreProvider.scala:360)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1$$anonfun$6.apply(HDFSBackedStateStoreProvider.scala:359)

请帮我解决同样的问题。这个问题可能有解决方法，如果有的话请建议我，或者可能是一个错误。

你的检查站位置在哪里？这通常是因为您使用本地文件系统来存储检查点。确保设置了“checkpointLocation”选项，并且它指向所有节点都可以访问的分布式文件系统（例如 HDFS）。 [1]

[1] http://spark.apache.org/docs/latest/structed-streaming-programming-guide.html#recovering-from-failures-with-checkpointing http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#recovering-from-failures-with-checkpointing

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

java.lang.IllegalStateException：读取增量文件时出错，使用 kafka 进行 Spark 结构化流处理的相关文章

如何在KafkaStream应用程序中获取partitionId和TopicName

我们如何从 KafkaStream 获取主题名称和分区 id 对于任何其他 Kafka 消费者我们可以获得主题名称和分区 ID 如下所示 ConsumerRecords
使用 Kafka Streams 进行 OpenTracing - 如何？

我正在尝试将 Jaeger 跟踪集成到 K Streams 中我计划将跟踪添加到几个最重要的管道中并且想知道将 Traceid 从一个管道传递到另一个管道的好方法是什么这是我到目前为止所做的在流处理管道开始时我启动一个服务器范围并
Kafka中如何实现强一致性？

尝试了解 Kafka 中的一致性维护请找出场景并帮助理解 Number of partition 2 Replication factor 3 Number of broker in the cluster 4 那么为了实现强一致性需
如何使用不同的kafka主题配置Kubernetes部署的微服务的每个pod/进程？

在我们的应用程序中有多个不同 kafka 主题的消费者例如 Cosumer C1 Cosumer C2 Cosumer C3 Cosumer C4 Cosumer C5 以及不同的 kafka 主题例如主题 1 主题 2 主题 3 主
当记录处理时间超过“max.poll.interval.ms”时，在消费过程中记录/消息会发生什么？

我的消费者设置如下 auto offset reset earliest enable auto commit true default value session timeout ms 10000 default value max po
Kafka 连接教程停止工作

我在此链接中执行了步骤 7 使用 Kafka Connect 导入导出数据 http kafka apache org documentation html quickstart http kafka apache org documen
KeeperErrorCode = /admin/preferred_replica_election 的 NoNode

当我启动kafka时 zookeeper发生错误 INFO Got user level KeeperException when processing sessionid 0x156028651c00001 type delete cxi
Kafka服务器未远程连接zookeeper服务器

我正在尝试将 kafka 服务器在 Windows 系统上连接到 Zookeeper 服务器我面临着 Opening socket connection to server 10 160 10 25 10 160 10 25 2181
批量插入成功后更新 Kafka 提交偏移量

我有一个 spring kafka 消费者它读取记录并将其移交给缓存计划任务会定期清除缓存中的记录我想仅在批次成功保存到数据库后更新 COMMIT OFFSET 我尝试将确认对象传递给缓存服务以调用确认方法如下所示 public c
带有 Kafka 消费者的 Spring Boot 作业调度程序

我正在开发一个 POC 我想使用来自 Kafka 主题用户的消息尝试实现消费者应该从 Kafka 主题读取消息一旦 spring boot 调度程序在预定时间或 cron 时间触发那么我们应该开始从 kafka 主题中一一消费现有
无法向 Kafka 发送大消息

我想从生产者向 Kafka 发送一条大消息因此我更改了以下属性代理服务器属性 replica fetch max bytes 317344026 message max bytes 317344026 max message byt
Kafka 消费者通过 JMX 滞后

我正在尝试监控 Kafka 0 10 中消费者组的滞后情况我们的消费者在 Kafka 而不是 ZooKeper 中跟踪他们的偏移量这意味着我可以使用以下方式获取数据 bin kafka consumer groups sh bootst
KafkaStreams 同一应用程序中的多个流

我正在尝试根据 KafkaStreams 的惯例和合理性做出实用的设计决策假设我想将两个不同的事件放入其中KTables 我有一个制作人将这些消息发送给KStream那就是听那个话题据我所知我不能对消息使用条件转发KafkaStrea
非时间戳列上的 Spark 结构化流窗口

我收到以下形式的数据流 id timestamp val xxx 1 12 15 25 50 1 2 12 15 25 30 1 3 12 15 26 30 2 4 12 15 27 50 2 5 12 15 27 30 3 6 12 15
有没有办法重新分区 Kafka 流中的输入主题？

我有一个由 byte 键控的主题我想对其进行重新分区并通过消息正文中字段中的另一个键处理该主题我发现有KGroupedStream and groupby功能但它需要一个聚合函数来转换为 KTable KStream 我不需要聚合我
是否可以使用 Kafka Streams 访问消息头？

随着添加Headers http apache spinellicreations com kafka 0 11 0 0 javadoc org apache kafka common header Header html到记录生产者记录
kafka Avro 多个主题的消息反序列化器

我正在尝试以 avro 格式反序列化 kafka 消息我使用以下代码 https github com ivangfr springboot kafka debezium ksql blob master kafka research c
如何更改主题的起始偏移量？

是否可以更改新主题的起始偏移量我想创建一个新主题并从偏移量开始阅读10000 How 自从卡夫卡0 11 0 0 https issues apache org jira browse KAFKA 4743你可以使用脚本kafka con
编辑 Kafka Listener Spring 应用程序以更改阶段/目标

我可以利用另一个运行 Kafka 应用程序代码库的团队来使用相同的数据将其加载到我们的新暂存表中而不是他们的他们在 Messages 文件夹中有许多不同的 kafka 侦听器适配器 java 文件每个文件消耗不同类型的数据每个
Kafka Streams - 跳跃窗口 - 去重键

我正在 4 小时窗口上进行跳跃窗口聚合每 5 分钟前进一次由于跳跃窗口重叠我得到了具有不同聚合值的重复键 TimeWindows of 240 60 1000L advanceBy 5 60 1000L 如何消除具有重复数据的重复键或

随机推荐

如何将文本视图从一个片段更新到另一个片段

我有一个包含两个片段的活动 MainActivity Fragment1 有一个 EditText 和一个按钮当用户按下按钮时 EditText 内的文本将被发送到只有 TextView 的 Fragment2 但我不太清楚如何将文本从
在 NLog 目标中使用 ${basedir} 创建一个具有该名称的文件夹

我在 Asp Net core 2 0 项目中使用 NLog Web AspNetCore 如果我使用以下目标
Fortran 90 - 具有可扩展 3D 数组的“分段错误 - 无效内存引用”

我用 gfortran 编译了一个 fortran 90 程序它以我想要的方式构建了一个可扩展的 3D 数组运行后我收到以下错误 Program received signal SIGSEGV Segmentation fault i
强制使用自定义属性

设想我有一个基类 MyBase 我有一个自定义属性 MyAttrib 我这样做 MyAttrib 1234 class MyClass MyBase MyClass 问题我可以以任何方式强制从 Base 继承的类具有属性 Attrib
角度变化MatInput Size

I am new to Angular 4 and started working with the material components I copied a couple of example from the official do
带破折号的路由值

我有这条路线 routes MapRoute News News id alias new controller News action Show new id 0 9 namespaces new Site Controllers 该路由
如何检测 iOS 14 中是否授予本地网络权限

iOS 14 如何检测用户是否在应用程序中授予了本地网络权限如果用户拒绝权限并重定向到操作系统设置以授予权限我必须显示错误屏幕苹果是否提供了类似位置许可之类的查找方式我编写了这个类如果您不是使用 iOS 14 2 则可以使用该类
如何停止在 Firestore 中获取数据？

我正在使用 Firestore 作为后端构建一个应用程序我需要从数据库中获取每一个新的更改 Code EventListener
在 Backbone 中设置父属性的正确方法是什么？

我有一个 JSON 文件它将创建我的ParentModel以及填充孩子Records收藏 ParentModel Backbone Model extend initialize function this set records new
php的json_encode()总是使用双引号作为字符串分隔符吗？

我有一个包含字符串作为值的 php 关联数组我将其编码为 JSON 并将其存储在 html data 属性中这是一些 JS 读到的到目前为止一切都很好现在我需要对数据属性使用单引号否则上下文会切换 section sectio
从命令行计算多个子目录中的文件数量

我有一个包含大量子目录的目录每个子目录的名称类似于 treedir xxx 其中 xxx 是一个数字我想运行一个命令最好从命令行因为我没有使用批处理脚本的经验该命令将计算每个名为 treedir xxx 的子目录中的文件数量并将
如何清理 ODBC 数据库输入？

我目前使用 MySql 但更喜欢 ODBC 解决方案以使其面向未来在将用户输入传递到 ODBC 数据库之前如何对其进行清理而且当我这样做时我将字符串用双引号引起来例如 INSERT INTO VALUES description
AngularJS 从子控制器访问父范围

我已经使用设置了我的控制器data ng controller xyzController as vm 我有一个带有父子嵌套控制器的场景我通过使用访问嵌套 html 中的父属性没有问题 parent vm property 但我无法弄清
删除系列指示器/图例 AndroidPlot

我意识到 AndroidPlot 有一个论坛但它不是最活跃的所以我会在这里碰碰运气我正在尝试使用 AndroidPlot 库从 XY 图中删除系列指示器或图例我不想从情节本身中删除该系列只是想删除传说我已经在 AndroidPl
如何在不添加所有现有文件的情况下创建分支？

当我在 git 中创建分支时所有创建的文件都会添加到新分支中如何在不添加所有现有文件的情况下创建分支 git checkout orphan branchname git rm rf 完成此操作后您可以创建添加和提交新文件并且生成
需要有关在 Django 中重定向视图的帮助（新）

我已经发布了一个与此标题相同的问题每个人都可以通过这个链接看到它 https stackoverflow com questions 74865898 need help about redirecting views in django
Java Riak 连接问题

尝试将我的 Java Eclipse 连接到 Linux Ubuntu 上的 Riak 服务器遵循了一些指南但仍然不起作用使用 Riak 客户端 2 0 2 Eclipse Oxygen 1a 版本 4 7 1a Ubuntu 16
由于需要带有 :path 或 :git 的 gem 导致发生 LoadError

我这里有一个非常奇怪的问题我在 github 上分叉了一个 gem 来进行一些修改在本地计算机上克隆了我的存储库进行了更改并更改了另一个项目的 Gemfile 以从我的本地存储库中获取 gem 进行测试不幸的是我在 ruby 脚本
如何实现广度优先遍历？

这就是我所拥有的我以为预购是一样的把它和深度优先混在一起了 import java util LinkedList import java util Queue public class Exercise25 1 public stat
java.lang.IllegalStateException：读取增量文件时出错，使用 kafka 进行 Spark 结构化流处理

我在我们的项目中使用结构化流 Kafka 进行实时数据分析我使用的是 Spark 2 2 kafka 0 10 2 我在应用程序启动时从检查点进行流式查询恢复期间遇到问题由于单个 kafka 流点派生有多个流查询并且每个流查询都有不同

java.lang.IllegalStateException：读取增量文件时出错，使用 kafka 进行 Spark 结构化流处理

java.lang.IllegalStateException：读取增量文件时出错，使用 kafka 进行 Spark 结构化流处理 的相关文章

随机推荐

热门标签

java.lang.IllegalStateException：读取增量文件时出错，使用 kafka 进行 Spark 结构化流处理的相关文章