Apache Flink 中的 Keyby 数据分布，逻辑运算符还是物理运算符？

2023-12-12

根据 Apache Flink 文档，KeyBy 转换在逻辑上将流划分为不相交的分区。所有具有相同键的记录都被分配到同一个分区。

KeyBy是100%逻辑转换吗？它不包括跨集群节点分布的物理数据分区吗？如果是这样，那么如何保证所有具有相同键的记录都分配到同一个分区呢？

例如，假设我们从 n 个节点的 Apache Kafka 集群获取分布式数据流。运行我们的流作业的 Apache Flink 集群由 m 个节点组成。当对传入数据流应用 keyBy 转换时，它如何保证逻辑数据分区？或者它是否涉及跨集群节点的物理数据分区？

我似乎对逻辑数据分区和物理数据分区感到困惑。

所有可能的键的键空间被划分为一定数量的关键群体。密钥组的数量（与最大并行度) 是您在设置 Flink 集群时可以设置的配置参数；默认值为 128。

每个密钥都属于一个密钥组。当集群启动时，键组在任务管理器之间划分——如果集群是从检查点或保存点启动的，这些快照将按键组索引，每个任务管理器会加载键中键的状态已分配的组。

当作业运行时，每个任务管理器都知道用于计算键的键选择器函数，以及键如何映射到键组。 TM 还知道任务管理器的关键组划分。这使得将每条消息路由到负责该消息密钥的任务管理器变得简单。

Details:

密钥所属的密钥组的计算大致如下：

Object key = the result of your KeySelector function;
int keyHash = key.hashCode();
int keyGroupId = MathUtils.murmurHash(keyHash) % maxParallelism;

在给定实际并行度和 maxParallelism 的情况下，应将给定键组中的元素路由到的运算符实例的索引，计算如下

keyGroupId * parallelism / maxParallelism

实际代码在org.apache.flink.runtime.state.KeyGroupRangeAssignment如果你想看一下。

一个主要结论是密钥组是不相交的，并且它们跨越密钥空间。换句话说，不可能出现不属于某个密钥组的密钥。每个密钥都属于一个密钥组，并且每个密钥组都属于一个的任务管理器。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apacheflink

distributedcomputing

flinkstreaming

datapartitioning

Apache Flink 中的 Keyby 数据分布，逻辑运算符还是物理运算符？的相关文章

Hadoop：将多个IP地址绑定到集群NameNode

我在 Softlayer 上有一个四节点 Hadoop 集群 Master NameNode 有一个用于外部访问的公共IP地址和一个用于集群访问的私有IP地址从节点数据节点具有私有IP地址我试图连接到主节点而不需要为每个从节点分配
Flink：处理数据早于应用程序水印的键控流

我正在使用带有运动源和事件时间键控窗口的 F link 该应用程序将监听实时数据流窗口事件时间窗口并处理每个键控流我有另一个用例我还需要能够支持某些关键流的旧数据的回填这些将是事件时间鉴于我正在使用水印这会成为一个问题因为
Flink CEP：对于不同类型的事件，使用哪种方法加入数据流？

假设我有两种不同类型的数据流一种提供天气数据另一种提供车辆数据我想使用 Flink 对数据进行复杂的事件处理 Flink 1 3 x 中哪种方法是正确的使用方法我看到了不同的方法如 Union Connect Window Joi
如何在 OS X C 代码中创建异步计时器？

所以这个问题实际上是为什么 time h 在 OS X 和 Linux 上不一样但是我已经接受了这些分歧为了在 Unix 系统上创建计时器我遵循了本教程http www helsinki fi atk unix dec manua
Apache Flink 环境中的 AWS SDK 冲突

我正在尝试将我的作业部署到 Flink 环境但总是收到错误 java lang NoSuchMethodError com amazonaws AmazonWebServiceRequest putCustomQueryParameter
Apache Flink、JDBC 和 fat jar 是否存在类加载问题？

使用 Apache Flink 1 8 并尝试运行RichAsyncFunction 我得到No Suitable Driver Found初始化 Hikari 池时出错RichAsyncFunction open 在 IDE 中它运行得很
为连续序列和分割向量创建分组变量

我有一个向量例如c 1 3 4 5 9 10 17 29 30 我想将形成规则连续序列的相邻元素分组在一起即在参差不齐的向量中增加 1 结果是 L1 1L2 3 4 5L3 9 10 L4 17L5 29 30 天真的代码前 C
如果leader没有死但是无法接收Kafka中的消息会发生什么？单点故障？

我有 3 个经纪人 3 个分区每个代理都是一个分区的领导者和所有分区的 ISR 假设我已经在端口上运行了代理19092 29092 39092分别 19092 partition 0 29092 partition 1 39092 par
如果更新值与接受者发送的最高提案编号不同步，paxos 是否会“忽略”更新值的请求？

这里的标题可能会产生误导我将尽力通过一个例子来解释我的疑问我正在从 wiki 和其他来源阅读有关 paxos 算法的内容 1 想象一下客户端请求更新值的情况 X在下面的示例中已被处理经过一轮 Paxos 后得到一个值Vb之所以被选
Flink 检查点到 Google Cloud Storage

我正在尝试为 GCS 中的 flink 作业配置检查点如果我在本地运行测试作业没有 docker 和任何集群设置一切正常但如果我使用 docker compose 或集群设置运行它并在 flink 仪表板中使用作业部署 fat ja
网络断开后，raft follower如何重新加入？

我在木筏上遇到了问题在论文寻找一种可理解的共识算法扩展版中写道要开始选举追随者会增加其当前的任期并过渡到候选状态第 5 2 节它还说 AppendEntries RPC 和 RequestVot RPC 中的接收者应为 R
Apache Flink - 如何使用 AWS Kinesis 发送和使用 POJO

我想使用 Flink 来使用来自 Kinesis 的 POJO 是否有关于如何正确发送和反序列化消息的标准 Thanks 我用以下方法解决了它 DataStream
在选定的数据范围内创建数据分区，将其输入到 caret::train 函数中以进行交叉验证

我想为下面的数据框创建折刀数据分区这些分区将用于caret train 像caret groupKFold 产生然而问题是我想将测试点限制为超过 16 天同时使用这些数据的其余部分作为训练集 df lt data frame Eff
使用 COMPS 构建 C/C++ 应用程序时出错：硬编码路径

我正在尝试构建一个使用 C C 绑定开发的 COMPASs 应用程序当我构建应用程序时出现以下错误您知道我该如何解决这个问题吗 xxxx xxx c increment gt buildapp increment BSC Barcel
Javascript分布式计算[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案为什么没有任何 Javascript 分布式计算框架项目这个想法对我来说绝对很棒因为客户端就是浏览器可以使用AJAX进行迭代网站管理
Cassandra Pojo Sink Flink 中的动态表名称

我是 Apache Flink 的新手我正在使用 Pojo Sink 将数据加载到 Cassandra 中现在我在以下命令的帮助下指定表和键空间名称 Table注解现在我想在运行时动态传递表名称和键空间名称以便可以将数据加载到用
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
Apache Flink 动态设置 JVM_OPT env.java.opts

是否可以设置自定义 JVM 选项env java opts提交作业时未在作业中指定conf flink conf yaml file 我问的原因是我想在 log4j 中使用一些自定义变量我也在 YARN 上运行我的工作我已经使用 CLI
Flink 窗口：聚合并输出到接收器

我们有一个数据流其中每个元素都是这种类型 id String type Type amount Integer 我们想要聚合这个流并输出总和amount每周一次目前的解决方案 Flink 管道示例如下所示 stream keyBy ty
Apache Flink 中的并行度

我可以为 Flink 程序中任务的不同部分设置不同的并行度吗例如 Flink 如何解释以下示例代码两个自定义实践者MyPartitioner1 MyPartitioner2 将输入数据划分为两个4和2个分区 partitionedDat

随机推荐

mysql_fetch_assoc()：提供的参数不是有效的 MySQL 结果资源[重复]

这个问题在这里已经有答案了可能的重复警告 mysql fetch array 提供的参数不是有效的 MySQL 结果我真的坚持这一点我收到了这个错误 mysql fetch assoc 提供的参数不是文件名中有效的 MySQL
LINQ 中的动态 where 子句？

我正在尝试根据动态条件加载数据 string tempQry string Empty if string IsNullOrEmpty cusid string IsNullOrEmpty mktid tempQry x gt x Mark
Scrapy安装（需要Microsoft Visual C++ 14.0）

我已经尝试通过命令安装 scrapy 好几天了 pip install scrapy 下载要求后我收到此错误代码 error Microsoft Visual C 14 0 is required Get it with Microsof
Tridion：替换 Query.QueryOperator 方法？

Query QueryOperator AND Field我们在 Tridion R5 3 VBscript 模板中使用了这种方法效果很好最近在迁移到Tridion 2011 SP1时我们尝试使用此方法但它不起作用我们了解到该方
通过 pandas 坐标数据框查找单元格中的点

我必须通过两个 pandas 数据框找到哪些点位于方形单元格网格内给定点坐标和单元格边界坐标我正在打电话dfc包含代码和单元格边界坐标的数据框我简化了问题在实际分析中我有一个大网格其中包含地理点和大量要检查的点 Code minx
Openshift 缺少创建文件的权限

spring boot应用程序部署在openshift 4上该应用程序需要在nfs share上创建一个文件 openshift 容器已在 NFS 类型上配置卷挂载 openshift 上的容器创建一个具有随机用户 ID 的 pod 如下
在 Apache Beam 中如何处理 Pipeline-IO 级别的异常/错误

我正在使用 Spark runner 作为 Apache Beam 中的管道运行程序并发现错误通过得到错误我的问题提出了我知道错误是由于 sql 查询中的 Column name 不正确造成的但我的问题是如何在 IO 级别处理错误
如何使用主pom文件检出Web应用程序的所有模块并构建所有模块

我有一个依赖多个模块的 Web 应用程序为了构建它我有一个主 pom xml 文件我想要这个 pom 文件做的是签出所有模块下面是我的 pom 文件
编辑 phpmyadmin blob 字段

Huh 同样的道理在 phpMyAdmin 中查看 Blob 的内容我有一个斑点就像给定网址的屏幕截图一样它显示 blob 谢谢 phpmyadmin 你是最好的不过与上面提出问题的人不同我真的很想editblob 值然后保存
如何更改 Linux 中打开文件的数量限制？ [关闭]

Closed 这个问题是无关目前不接受答案运行我的应用程序时有时会出现以下错误too many files open Running ulimit a报告限制为 1024 如何将限制提高到 1024 以上 Edit ulimit n
在 jQuery 中用跨度包围一些文本

我拥有的 ul li My text ul class myClass li blahblahblah li ul li ul 我想要的是 ul li span My text span ul class myClass li blahbl
为什么 _bin_DeployableAssemblies 文件夹特定于 Web 应用程序？

VS 2010 SP1 中添加了 bin DeployableAssemblies 文件夹作为拉入不存在硬依赖项的程序集的常用方法我相信它最初是作为允许人们进行 bin 部署 MVC 的一种方式而添加的但它在 Web 应用程序之外的环
如何在php中搜索精确的数字

如何搜索准确的号码这段代码是这样工作的如果我搜索 24626838 这是完全否它什么也没有显示之后如果我搜索这个 no 2462683 这不完整所以它显示的结果是这样的像这样 24626838 24626838 24626836
可以在不删除和插入的情况下更新红黑树中的节点键吗？

通常对红黑树中的键进行更改需要通过删除然后重新插入节点来执行是否有可能对红黑树中的节点进行key更新比delete insert更高效通过需要时搜索删除插入来实现更新 1 删除密钥O log n 2 使用新键插入新节点O log
在 ASP.NET 中使用 Unity.WebForms

我正在尝试在 webforms 项目中实现 DI 因此我在 UI 层中安装了 Unity WebForms dll 一旦我这样做就会使用 UnityWebFormsStart 类文件为我创建一个 App Start 文件夹该文件内有一个
帮助我理解 AVAssetWriter 中的 CMTime

我很难理解如何使用 AVAssetWriter 将 30fps 的运动 JPEG 流转换为视频文件我没有得到的部分是适配器appendPixelBuffer buffer withPresentationTimeresentTime 方
Python - 我看不到我的错误是什么，因为窗口立即消失

我对 Python 还很陌生我对这个问题非常恼火我不确定这是否重要但我使用 Python 2 7 6 运行我的 py 文件并在我的计算机上安装了 python 而不是在任何在线事物或其他程序上使用它每次我遇到错误时我的程序都会正
sql触发器来停止跨行重复

我有一个包含多条记录的表用户名例如 TOM Question ID 例如 q002 答案例如 D 我想创建一个触发器以便没有人可以两次提交同一问题的答案它必须是一个触发器 only CREATE TRIGGER trigger C
使用 html2canvas 的 div 的屏幕截图。发送到 php，保存：图像损坏

我生成画布并将其传递给 php 如下所示 body on click save image function html2canvas myImage onrendered function canvas imageHolder html c
Apache Flink 中的 Keyby 数据分布，逻辑运算符还是物理运算符？

根据 Apache Flink 文档 KeyBy 转换在逻辑上将流划分为不相交的分区所有具有相同键的记录都被分配到同一个分区 KeyBy是100 逻辑转换吗它不包括跨集群节点分布的物理数据分区吗如果是这样那么如何保证所有具有相同键的

Apache Flink 中的 Keyby 数据分布，逻辑运算符还是物理运算符？

Apache Flink 中的 Keyby 数据分布，逻辑运算符还是物理运算符？ 的相关文章

随机推荐

热门标签

Apache Flink 中的 Keyby 数据分布，逻辑运算符还是物理运算符？的相关文章