管理具有大量内存使用的状态 - 从存储中查询

2023-12-19

如果这听起来很愚蠢，请道歉！我们正在使用 flink 进行异步 IO 调用。很多时候，IO 调用会重复（相同的参数集），并且我们调用的大约 80% 的 API 对相同的参数返回相同的响应。因此，我们希望避免再次拨打电话。我们认为我们可以使用状态来存储以前的响应并再次使用它们。问题是，虽然我们的响应可以再次使用，但此类响应的数量很大，因此需要大量内存。有没有办法将其持久化以在需要时驱动和查询？

根本不是一个愚蠢的问题！

一些事实揭示了为什么这并不简单：

Flink 状态对于单个算子来说是严格本地化的。您无法访问另一个运算符中的状态。
Flink 提供了一种可以溢出到磁盘的状态后端，即 RocksDB。只有键控状态存储在 RocksDB 中——非键控状态始终存在于堆上。
异步 i/o 运算符不能在键控流上使用——它只能在非键控上下文中工作。
将迭代（作业图中的循环连接）与 DataStream API 结合使用是一个非常糟糕的主意（因为它会破坏检查点）。

当然，缓存不一定需要处于Flink的托管状态。

一些选项：

不要对缓存使用键控状态。您可以使用诸如单独的 RocksDB 实例之类的东西作为缓存，并直接在异步 i/o 运算符中实现缓存。如果缓存适合内存，我建议使用 Guava。
不要使用异步 I/O。按照 @YuvalItzchakov 的建议，在 ProcessFunction 中自行进行获取和缓存。
你可以使用有状态函数 https://statefun.io反而。这是一个新的库和 API，位于 Flink 之上，克服了上面列出的一些限制。
您可以构建如下图所示的东西。这里，缓存在 CoProcessFunction 中以键控状态保存。如果缓存未命中，则使用下游异步 I/O 运算符来获取丢失的数据。然后必须使用外部队列（例如 Kafka、Kinesis 或 Pulsar）将其循环回缓存。

                    +---------------------+                                       +------+
                    |                     +--results from cache+---------------^--> SINK |
+--requests+------> |  CoProcessFunction  |                                    |  +------+
                    |                     |                                    |
+--cache misses+--> |  cache in RocksDB   |                    +-----------+   |
                    |                     +--side output:      | fetch via +---+-> loop back
     SOURCES        +---------------------+  cache misses+---> | async i/o |       as 2nd input
                                                               +-----------+       to fill cache

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apacheflink

flinkstreaming

管理具有大量内存使用的状态 - 从存储中查询的相关文章

如何构建和使用flink-connector-kinesis？

我正在尝试将 Apache Flink 与 AWS kinesis 结合使用这document https ci apache org projects flink flink docs release 1 7 dev connector
Flink 仪表板版本 1.3.2 中无法执行 CEP 模式，这是由 ClassNotFoundException 引起的

我写了一个像这样的简单模式 Pattern
Apache Flink 与 Elasticsearch 集成

我正在尝试将 Flink 与 Elasticsearch 2 1 1 集成我正在使用 Maven 依赖项
根据 Flink 的模式使用 GCS 文件

由于 Flink 支持 Hadoop 文件系统抽象并且有一个GCS连接器 https github com GoogleCloudPlatform bigdata interop 在 Google Cloud Storage 之上实现它的
SingleOutputStreamOperator#returns(TypeHint typeHint) 方法的 javadoc

我正在阅读源代码SingleOutputStreamOperator returns 它的javadoc是 Adds a type information hint about the return type of this operato
为什么 Flink 在 DataStream join + Global window 上发出重复记录？

我正在学习试验 Flink 并且观察到 DataStream 连接的一些意外行为并且想了解发生了什么假设我有两个流每个流有 10 条记录我想将其加入到id场地假设一个流中的每条记录在另一个流中都有一个匹配的记录并且 ID 在每
Flink 中复杂拓扑（多输入）的集成测试

我需要为 flink 流拓扑编写单元测试这基本上是一个CoFlatMapFunction 并且它有 2 个输入我尝试从这个页面中获得一些灵感 https ci apache org projects flink flink docs s
从 FlinkML 多元线性回归中提取权重

我正在运行 Flink 0 10 SNAPSHOT 的示例多元线性回归我不知道如何提取权重例如斜率和截距 beta0 beta1 无论你想怎么称呼它们我对 Scala 不太熟悉这可能是我问题的一半感谢任何人可以提供的任何帮助 ob
Apache Flink：KeyedStream 上的数据分布不均匀

我在 Flink 中有这样的 Java 代码 env setParallelism 6 Read from Kafka topic with 12 partitions DataStream
StreamingFileSink 未将数据提取到 s3

我创建了简单的摄取服务该服务选择本地文件并使用 StreamingFileSink 摄取到 s3 https ci apache org projects flink flink docs stable dev connectors st
在任务管理器之间均匀分配 Flink 运算符

我正在 15 台机器的裸机集群上构建 Flink 流应用程序原型我使用带有 90 个任务槽 15x6 的纱线模式该应用程序从单个 Kafka 主题读取数据 Kafka主题有15个分区所以我也将源算子的并行度设置为15 但是我发现 F
Flink 日志记录限制：如何将日志记录配置传递给 Flink 作业

我有一个 flink 作业它使用 logback 作为日志记录框架因为日志需要发送到logstash 而 logback 有一个 logstash 附加程序 Logstash logback appender Appender 工作正常
Flink TaskManager 超时？

我正在运行 Flink 应用程序通过 Yarn 似乎有时任务管理器会随机超时这是错误 java util concurrent TimeoutException Heartbeat of TaskManager with id some
Flink CEP：对于不同类型的事件，使用哪种方法加入数据流？

假设我有两种不同类型的数据流一种提供天气数据另一种提供车辆数据我想使用 Flink 对数据进行复杂的事件处理 Flink 1 3 x 中哪种方法是正确的使用方法我看到了不同的方法如 Union Connect Window Joi
在 Flink 中，我可以在同一个槽中拥有一个算子的多个子任务吗？

探索Apache Flink几天了对Task Slot的概念有些疑惑虽然有人问了几个问题但有一点我不明白我正在使用一个玩具应用程序进行测试运行本地集群我已禁用运算符链接我从文档中知道插槽允许内存隔离而不是 CPU 隔离阅读文
flink - 使用匕首注入 - 不可序列化？

我使用 Flink 最新通过 git 从 kafka 流式传输到 cassandra 为了简化单元测试我通过 Dagger 添加依赖注入 ObjectGraph 似乎已正确设置自身但内部对象被 Flink 标记为不可序列化如果我
Cassandra Pojo Sink Flink 中的动态表名称

我是 Apache Flink 的新手我正在使用 Pojo Sink 将数据加载到 Cassandra 中现在我在以下命令的帮助下指定表和键空间名称 Table注解现在我想在运行时动态传递表名称和键空间名称以便可以将数据加载到用
我可以将 flink RocksDB 状态后端与本地文件系统一起使用吗？

我正在探索使用 FlinkrocksDb 状态后端文档似乎暗示我可以使用常规文件系统例如 file data flink checkpoints 但代码 javadoc 仅在此处提到 hdfs 或 s3 选项我想知道是否可以将本地文件
Flink中为什么DataStream不支持聚合

我是 Flink 的新手有时我想在 DataStream 上进行聚合而不需要先执行 keyBy 为什么 Flink 不支持 DataStream 上的聚合 sum min max 等谢谢你艾哈迈德 Flink 支持非 keyed
当我重新运行 Flink 消费者时，Kafka 再次消费最新消息

我在用 Scala 编写的 Apache Flink API 中创建了一个 Kafka 消费者每当我从某个主题传递一些消息时它就会及时接收它们但是当我重新启动使用者时它不会接收新的或未使用的消息而是使用发送到该主题的最新消息这

随机推荐

如何在不使用 Ruby 和 WMI 轮询的情况下检测 USB 插入？

我读了下面的文章使用 Ruby 和 WMI 检测 USB 驱动器 http rubyonwindows blogspot com 2007 06 using ruby wmi to detect usb drive html 但是这种方
azure 用户会话生命周期

我成功使用 azure ad 帐户通过 openid connect 登录我的应用程序但我的用户将在 1 小时后注销我没有在我的代码中找到设置会话过期时间的代码有任何文档对此进行解释吗我怎样才能延长会话活跃时间 You can Az
如何使用 .NET 以编程方式获取 C# 中应用程序的 GUID？

我需要在 C 中访问我的项目的程序集我可以在项目属性下的程序集信息对话框中看到 GUID 目前我刚刚将其复制到代码中的 const 中 GUID 永远不会改变所以这并不是一个糟糕的解决方案但直接访问它会更好有没有办法做到这一点
是否可以在后台执行多个命令，但等待所有结果并在命令失败时使脚本失败

我有一个 CI 脚本我想通过在后台运行一些东西来加速它我希望脚本等待所有进程并检查每个进程以查看是否失败这里有一个简化 bin bash set e bg sleep RANDOM 10 1 s bg2 sleep RANDOM 10
在 Qt 中创建 UTF-8 文件

我正在尝试在 Qt 中创建一个 UTF 8 编码的文件 include
我的 Flutter 本地通知出现一些错误

我需要帮助调用本地通知时出现错误对于 initState initState super initState flutterLocalNotificationsPlugin new FlutterLocalNotificationsPl
如何在 C 或内联汇编中设置 ARM 中断向量表分支？

有人可以向我展示如何在没有 RTOS 或 Linux 操作系统的裸机环境中使用 C 或内联汇编设置 ARM9 中断向量表的示例吗具体来说如何使用内联汇编或 C 来设置用 C 编码的 IRQ 中断处理程序 ISR 的分支 timer1 6
MTAudioProcessingTap EXC_BAD_ACCESS 并不总是触发最终回调。如何释放它？

我正在尝试实施MTAudioProcessingTap而且效果很好问题是当我使用完 Tap 后我重新实例化我的类并创建一个新的 Tap 我该如何释放水龙头 1 我在创建时保留水龙头作为属性希望我可以访问它并稍后释放它 2 在deini
重用 SqlDataRecord 是否安全？

实现表值参数时生成表值参数的最常见方法之一IEnumerable
PatchCollection 绘制一个过度缩放的箭头补丁

让我们使用 FancyArrowPatch 在两个散点之间绘制一个箭头 import matplotlib pyplot as plt import matplotlib as mpl fig ax plt subplots points
过期和CDNS - YSlow 问题

首先我要提到的是我已经进行了一些挖掘但似乎找不到我要寻找的内容的正确答案我正在开发一个使用一些外部资源的网站谷歌分析 www google analytics com analytics js 最新的 jQuery 版本 http
当我在 javascript 中将“Object.assign”分配给原始类型时会发生什么？

我发现你可以打电话Object assign on a string or number输入 javascript 以获得某种增强原始类型 closure used to create object for simplicity fun
您可以将 Bootstrap 添加到 Ionic 应用程序吗？

我目前正在开发一个 Ionic 应用程序我想知道是否可以添加基于 Bootstrap 的图像库我知道 Ionic 和 Bootstrap 不能很好地协同工作但我想知道这是否可能 Step 1 安装引导程序 npm 安装引导程序获取引
在 Windows 上安装 TensorFlow (Python 3.6.x)

我正在尝试安装Windows 上的 TensorFlow https www tensorflow org versions r0 12 get started os setup html pip installation on windo
为什么模板基类的公共成员类型默认隐藏？

template
PDO 显示数据库中每个特定 ID 的数据

如果会员登录他们有像index php id 5这样的url id GET id 我可以通过这样做显示用户数据 pdo Database connect sql SELECT FROM data WHERE id member 5 ORD
在 CRA 网站上使用 VBScript 单击 IE 中的按钮

我对 VBScript 很陌生我正在尝试通过 CRA 网站自动执行一些工资计算http www cra arc gc ca esrvc srvce tx bsnss pdoc eng html http www cra arc gc ca
我应该如何解释 Docker busybox 容器内 nslookup 中的“找不到...”？

我不明白我得到的输出如果我运行 docker run rm busybox nslookup google com 我去拿 Server 192 168 65 1 Address 192 168 65 1 53 Non authorita
尝试在 Spring Boot 中发送电子邮件时出现 NoSuchMethodError

我正在尝试发送一封简单的电子邮件 Autowired JavaMailSender sender public void sendEMail throws Exception MimeMessage message sender creat
管理具有大量内存使用的状态 - 从存储中查询

如果这听起来很愚蠢请道歉我们正在使用 flink 进行异步 IO 调用很多时候 IO 调用会重复相同的参数集并且我们调用的大约 80 的 API 对相同的参数返回相同的响应因此我们希望避免再次拨打电话我们认为我们可以使用状态

管理具有大量内存使用的状态 - 从存储中查询

管理具有大量内存使用的状态 - 从存储中查询 的相关文章

随机推荐

热门标签

管理具有大量内存使用的状态 - 从存储中查询的相关文章