Flink任务管理器内存不足和内存配置

2024-06-19

我们使用 Flink 流在单个集群上运行一些作业。我们的工作是使用rocksDB 来保存状态。该集群配置为在 3 个独立的 VM 上使用单个 Jobmanager 和 3 个 Taskmanager 运行。每个 TM 均配置为运行 14GB RAM。 JM 配置为以 1GB 运行。

我们遇到 2 个与内存相关的问题： - 当使用 8GB 堆分配运行 Taskmanager 时，TM 耗尽堆内存，并且出现堆内存不足异常。我们对此问题的解决方案是将堆大小增加到 14GB。看起来这个配置解决了这个问题，因为我们不再因堆内存不足而崩溃。 - 尽管如此，在将堆大小增加到 14GB（每个 TM 进程）后，操作系统会耗尽内存并终止 TM 进程。 RES 内存随着时间的推移而不断增加，每个 TM 进程达到约 20GB。

1. 问题是我们如何预测物理内存和堆大小配置的最大总量？

2. 由于我们的内存问题，使用 Flink 托管内存的非默认值是否合理？在这种情况下，指导方针是什么？

更多细节：每个虚拟机配置有 4 个 CPU 和 24GB RAM 使用Flink版本：1.3.2

所需的物理内存和堆内存的总量非常难以计算，因为它很大程度上取决于您的用户代码、作业的拓扑以及您使用的状态后端。

根据经验，如果您遇到 OOM 并且仍在使用FileSystemStateBackend or the MemoryStateBackend，那么你应该切换到RocksDBStateBackend，因为如果状态变得太大，它可以优雅地溢出到磁盘。

如果您仍然遇到如上所述的 OOM 异常，那么您应该检查您的用户代码是否保留对状态对象的引用或以其他方式生成无法被垃圾收集的大对象。如果是这种情况，那么您应该尝试重构代码以依赖 Flink 的状态抽象，因为使用 RocksDB 它可能会脱离核心。

RocksDB 本身需要本机内存，这增加了 Flink 的内存占用。这取决于块缓存大小、索引、布隆过滤器和内存表。您可以了解有关这些内容以及如何配置它们的更多信息here https://github.com/facebook/rocksdb/wiki/Memory-usage-in-RocksDB.

最后但并非最不重要的一点是，您不应该激活taskmanager.memory.preallocate运行流作业时，因为流作业当前不使用托管内存。因此，通过激活预分配，您将为 Flink 的托管内存分配内存，这会减少可用的堆空间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apacheflink

flinkstreaming

Flink任务管理器内存不足和内存配置的相关文章

Apache Flink：如何从 Cassandra 读取数据流/数据集？

我尝试将 Cassandra 视为 Flink 中的数据源并使用以下链接中提供的信息从 Cassandra 读取数据以在 Flink 中进行处理 https stackoverflow com questions 43067681 re
为什么 Flink SQL 对所有表使用 100 行的基数估计？

我不确定为什么逻辑计划没有被正确评估这个例子 https stackoverflow com questions 53601410 apache flink enable join ordering 53981000 53981000 我更
Apache Flink：KeyedStream 上的数据分布不均匀

我在 Flink 中有这样的 Java 代码 env setParallelism 6 Read from Kafka topic with 12 partitions DataStream
处理时间窗口不适用于 Apache Flink 中的有限数据源

我正在尝试将一个非常简单的窗口函数应用于 Apache Flink 中的有限数据流本地无集群这是例子 val env StreamExecutionEnvironment getExecutionEnvironment env fro
Flink时间特性和AutoWatermarkInterval

在 Apache Flink 中 setAutoWatermarkInterval interval 向下游操作员生成水印以便他们提前事件时间如果水印在指定的时间间隔内没有更改没有事件到达运行时将不会发出任何水印另一方面如果在下
StreamingFileSink 未将数据提取到 s3

我创建了简单的摄取服务该服务选择本地文件并使用 StreamingFileSink 摄取到 s3 https ci apache org projects flink flink docs stable dev connectors st
Apache Flink 环境中的 AWS SDK 冲突

我正在尝试将我的作业部署到 Flink 环境但总是收到错误 java lang NoSuchMethodError com amazonaws AmazonWebServiceRequest putCustomQueryParameter
Flink Logging 获取作业名称或作业 ID

我正在尝试设置 logback xml 以便它将包含与日志记录关联的 JobName 或 JobId 我还没有找到一种方法来做到这一点是否可以最终我想要实现的是能够将日志发送到 ElasticSearch 并用消息标记 JobName
Apache Flink 上的 zipWithIndex

我想为我的输入的每一行分配一个id 这应该是一个数字0 to N 1 where N是输入中的行数粗略地说我希望能够执行以下操作 val data sc textFile textFilePath numPartitions val r
Apache Flink - 如何使用 AWS Kinesis 发送和使用 POJO

我想使用 Flink 来使用来自 Kinesis 的 POJO 是否有关于如何正确发送和反序列化消息的标准 Thanks 我用以下方法解决了它 DataStream
Flink 使用 Ceph 作为持久存储

Flink 文档建议 Ceph 可以用作状态的持久存储 https ci apache org projects flink flink docs release 1 3 dev stream checkpointing html http
如何正确处理自定义MapFunction中的错误？

我已经实施了MapFunction对于我的 Apache Flink 流程它正在解析传入元素并将其转换为其他格式但有时会出现错误即传入数据无效我看到两种可能的处理方法忽略无效元素但似乎我无法忽略错误因为对于任何传入元素我必须
flink - 使用匕首注入 - 不可序列化？

我使用 Flink 最新通过 git 从 kafka 流式传输到 cassandra 为了简化单元测试我通过 Dagger 添加依赖注入 ObjectGraph 似乎已正确设置自身但内部对象被 Flink 标记为不可序列化如果我
Flink中为什么DataStream不支持聚合

我是 Flink 的新手有时我想在 DataStream 上进行聚合而不需要先执行 keyBy 为什么 Flink 不支持 DataStream 上的聚合 sum min max 等谢谢你艾哈迈德 Flink 支持非 keyed
当我重新运行 Flink 消费者时，Kafka 再次消费最新消息

我在用 Scala 编写的 Apache Flink API 中创建了一个 Kafka 消费者每当我从某个主题传递一些消息时它就会及时接收它们但是当我重新启动使用者时它不会接收新的或未使用的消息而是使用发送到该主题的最新消息这
将 Apache Flink 与 Lagom 结合使用时出现 java.io.NotSerializedException

我正在 Lagom 的微服务实现中编写 Flink CEP 程序我的 FLINK CEP 程序在简单的 scala 应用程序中运行得非常好但是当我在 Lagom 服务实现中使用此代码时我收到以下异常拉戈姆服务实施 override
Flink从hdfs读取数据

我是 Flink 的新生我想知道如何从 hdfs 读取数据有人可以给我一些建议或一些简单的例子吗谢谢你们如果您的文件采用文本文件格式则可以使用 ExecutionEnvironment 对象中的 readTextFile 方法这
Flink - 无法从检查点恢复

我使用一个作业管理器和两个任务管理器在 kubernetes 上运行集群我通过在作业运行时杀死一个任务管理器 Pod 来测试检查点机制我在作业管理器和重新启动的任务管理器上遇到以下异常工作经理例外 java lang Exceptio
《使用 Apache Flink 进行流处理》如何从 IntelliJ 运行书籍代码？

如中所述这个帖子 https stackoverflow com questions 61043860 how to run first example of apache flink我无法成功运行使用 Apache Flink 进行流处
在运行时优雅地关闭 Flink Kafka Consumer

我正在将 FlinkKafkaConsumer010 与 Flink 1 2 0 一起使用我面临的问题是有没有办法可以关闭整个管道以编程方式如果看到某种情况可能的解决方案是我可以通过调用关闭kafka消费者源close FlinkKa

随机推荐

在VB6中等待进程退出后恢复窗口

我在win7 64位操作系统中使用VB6 此应用程序是从 xp 迁移的 Me WindowState vbMinimized WaitForProcess Shell launchapp vbNormalFocus Me WindowSta
当每个记录都是一个段落并且某些记录有 4 个字段而其他记录有 6 个字段时，如何将文本文件读入 R

如何读取文本文件其中每条记录都是一个段落每个换行符表示单独的字段复杂的是有些记录有 4 行有些记录有 6 行当字段数量的差异为 1 时 DWin 解决了我的问题但当字段数量差异为 2 时一切都崩溃了你可以有一个在这里看看他
是否可以为 azure blob 存储中的给定目录生成具有写入权限的 SAS（共享访问签名）

我们的 blob 存储帐户结构容器名称 simple 在这个容器内我们有 blob aa one zip aa two zip bb ss zip bb dd zip 是否可以生成对aa 目录有写权限但对bb 目录没有访问权限的SA
在 Intellij IDEA 12 中创建 Maven 项目，但始终位于“加载原型列表”页面

我在IntelliJ IDEA 12中创建了一个Maven项目完成项目名称并按下一步现在它显示了GroupId ArtifactId和Version 但 Maven 原型并没有出现它说正在加载原型列表我可以按完成但创建的项目
无法从 rollupOptions 自动确定入口点

我正在尝试对使用 vite 和 vue3 创建的前端应用程序进行 dockerize 它不作为容器工作这是错误响应无法从 rollupOptions 或 html 文件自动确定入口点并且没有显式的 OptimizeDeps inclu
Google 再营销标签 - iframe 高度问题

我注意到 Google 的再营销代码会在我的页面底部插入一个 iframe 问题是 iframe 弄乱了我的布局它的高度为 13 像素并且在底部留下了空白的白色垂直空间我尝试用 css 隐藏它但它在 IE9 中仍然可见 iframe
同一索引操作上的不同估计行？

简介和背景我必须优化一个简单的查询下面的示例重写几次后我认识到同一个索引操作的估计行数会根据查询的编写方式而有所不同最初该查询执行了聚集索引扫描因为生产中的表包含二进制列该表相当大大约 100 GB 并且全表扫描执行起来需
无法在 phantomjs 中延迟加载

我正在尝试从链接中抓取一些信息 http www myntra com women sarees nav id 606 http www myntra com women sarees nav id 606 涉及延迟加载下面是我的代码片段
点击当前选项卡刷新页面时的 Xamarin.Forms TabbedPage 事件

我正在使用 Xamarin Forms 构建 iOS Android 应用程序并有一个 TabbedPage 如果用户已经在选项卡 2 上并且单击了选项卡 2 并且我希望刷新选项卡 2 或者运行我自己的函数以便我可以自己刷新它有没有
在种子项目上构建时如何组织 git 存储库

我正在基于从 github 克隆的种子项目 MEAN io 构建一个网站如何将这些文件与我自己的文件分开由于该种子提供了广泛的文件框架因此我自己的文件分布在整个项目中我希望能够从种子中提取更新但不能将其与我添加的文件混合我知道我
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
在生产服务器上使用 Subversion 使文件生效的最佳方法是什么？

目前我已经设置了 subversion 这样当我在 Eclipse PDT 中进行更改时我可以提交更改它们将保存在 home administrator 中项目文件该文件具有 subversion 推荐的 branches tags
在Java中多次读取System.in会导致IOException？

我正在尝试创建一个小命令行游戏来强化我在过去几个月中在 Java 中学到的一些东西我正在尝试创建一个名为 readInput 的方法它返回一个我可以一次又一次调用的字符串第一次它工作正常但第二次它会导致 IO Exception 如
array_merge 更改键

我得到以下数组 arr array 6 gt Somedata 7 gt Somedata1 8 gt Somedata2 问题是当我使用array merge array Select the data arr 它确实将数组键更改为 A
无法在渲染器进程中使用 Node.js API

无法在 Electron 中使用任何与 Electron 或节点相关的操作未定义获取错误过程我检查了他们指导添加节点支持的各个地方但这已经完成了所以卡在这里我的主要应用程序代码是 const electron require el
Webview 电子邮件链接 (mailto)

我有一个视图并查看该网站有用于发送电子邮件的 malito 代码当我打开链接时会出现错误我希望当我打开链接时打开 Gmail 应用程序或其他电子邮件应用程序感谢所有帮助者 public class teacher extends A
将 Django 中的所有视图限制为经过身份验证的用户

我是 Django 新手我正在开发一个项目该项目有一个登录页面作为其索引和一个注册页面其余页面都必须仅限于登录用户如果未经身份验证的用户尝试访问这些页面则必须将他她重定向到登录页面我看到 login required装饰器会将
在 jQuery AJAX 成功中从 MySql 获取特定响应

好吧我有这个 ajax 代码它将在 Success 块中返回 MySql 的结果 ajax type POST url index php success function data alert data My Query sql SE
如何使用云打印打印Android活动显示

我正在尝试将 Google 云打印实现到应用程序中遵循集成指南 https developers google com cloud print docs android 我试图通过打印 google com 来保持基本单击我创建的打印按
Flink任务管理器内存不足和内存配置

我们使用 Flink 流在单个集群上运行一些作业我们的工作是使用rocksDB 来保存状态该集群配置为在 3 个独立的 VM 上使用单个 Jobmanager 和 3 个 Taskmanager 运行每个 TM 均配置为运行 14GB

Flink任务管理器内存不足和内存配置

Flink任务管理器内存不足和内存配置 的相关文章

随机推荐

热门标签

Flink任务管理器内存不足和内存配置的相关文章