我可以将自定义分区器与 group by 一起使用吗？

2024-01-07

假设我知道我的数据集不平衡并且我知道键的分布。我想利用它来编写一个自定义分区器，以充分利用运算符实例。

我知道关于数据流#partitionCustom https://ci.apache.org/projects/flink/flink-docs-master/api/java/org/apache/flink/streaming/api/datastream/DataStream.html#partitionCustom-org.apache.flink.api.common.functions.Partitioner-org.apache.flink.api.java.functions.KeySelector-。但是，如果我的流被锁定，它仍然可以正常工作吗？我的工作看起来像这样：

KeyedDataStream afterCustomPartition = keyedStream.partitionCustom(new MyPartitioner(), MyPartitionKeySelector())

DataStreamUtils.reinterpretAsKeyedStream(afterCustomPartition, new MyGroupByKeySelector<>()).sum()

我想要实现的是：

根据某个键拥有一个流 keyBy ，以便仅使用该键中的元素调用reduce函数。
该组根据一些自定义分区将工作拆分到节点之间。
自定义分区根据并行运算符实例的数量返回一个数字（该数字将被修复并且不会重新缩放）。
自定义分区从 keyBy 返回不同的值。然而，keyBy(x) = keyBy(y) => partition(x) = partition(y).
Having 预聚合 https://stackoverflow.com/questions/51634189/does-flink-support-map-side-aggregations-streaming在分区之前最大限度地减少网络流量。

用例示例：

数据集：[(0, A), (0, B), (0, C), (1, D), (2, E)]
并行算子实例数量：2
按函数分组：返回该对的第一个元素
分区函数：对于键 0 返回 0，对于键 1 和 2 返回 1。优点：处理可能将键 0 和 1 发送到同一运算符实例的数据倾斜，这意味着一个运算符实例将接收 80% 的数据集。

不幸的是这是不可能的。DataStreamUtils.reinterpretAsKeyedStream()要求数据进行相同的分区，就像您调用keyBy().

造成此限制的原因是密钥组以及密钥如何映射到密钥组。密钥组是 Flink 分配密钥状态的单位。键组的数量决定了算子的最大并行度，配置为setMaxParallelism()。密钥通过内部哈希函数分配给密钥组。通过更改密钥的分区，同一密钥组的密钥将分布在多台机器上，这是行不通的。

为了调整机器的密钥分配，您需要更改密钥组的密钥分配。但是，没有公共或可访问的接口来执行此操作。因此，Flink 1.6 中不支持自定义密钥分配。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apacheflink

flinkstreaming

我可以将自定义分区器与 group by 一起使用吗？的相关文章

如何构建和使用flink-connector-kinesis？

我正在尝试将 Apache Flink 与 AWS kinesis 结合使用这document https ci apache org projects flink flink docs release 1 7 dev connector
下沉 kafka 流时看不到消息，并且在 flink 1.2 中看不到打印消息

我的目标是使用kafka读取json格式的字符串对字符串进行过滤然后将消息接收出来仍然是json字符串格式出于测试目的我的输入字符串消息如下所示 a 1 b 2 我的实现代码是 def main args Array String
Apache Flink 使用 Windows 在写入 Sink 之前引发延迟

我想知道 Flink 窗口是否可能导致从数据进入管道到写入 Cassandra 中的表之间有 10 分钟的延迟我最初的意图是将每个事务写入 Cassandra 中的一个表并在 Web 层使用范围键查询该表但由于数据量很大我正在考虑延
logback 在 Flink 中不起作用

我有一个单节点 Flink 实例它在 lib 文件夹中具有 logback 所需的 jar logback classic jar logback core jar log4j over slf4j jar 我已从 lib 文件夹中删除了
无法在 Flink 新 Kafka Consumer-api (1.14) 中的检查点上向 Kafka 提交消费偏移量

我使用以下代码引用 Kafka 源连接器的 Flink 1 14 版本我期待以下要求在应用程序刚开始时必须读取 Kafka 主题的最新偏移量在检查点上它必须将消耗的偏移量提交给 Kafka 重新启动后当应用程序手动终止系统错误时
SingleOutputStreamOperator#returns(TypeHint typeHint) 方法的 javadoc

我正在阅读源代码SingleOutputStreamOperator returns 它的javadoc是 Adds a type information hint about the return type of this operato
为什么我的 Flink 窗口使用这么多状态？

我的 Flink 作业的检查点变得越来越大在深入研究各个任务后键控窗口函数似乎负责大部分大小我怎样才能减少这个如果您在 Windows 中绑定了很多状态则有几种可能性使用增量聚合通过使用reduce or aggregate
Apache Flink 1.3 中的 Elasticsearch 5 连接器

通过阅读文档我了解到使用 Apache Flink 1 3 我应该能够使用 Elasticsearch 5 x 但是在我的 pom xml 中
flink集群启动错误[ERROR]无法正确获取JVM参数

bin start cluster sh Starting cluster INFO 1 instance s of standalonesession are already running on centos1 Starting sta
从 FlinkML 多元线性回归中提取权重

我正在运行 Flink 0 10 SNAPSHOT 的示例多元线性回归我不知道如何提取权重例如斜率和截距 beta0 beta1 无论你想怎么称呼它们我对 Scala 不太熟悉这可能是我问题的一半感谢任何人可以提供的任何帮助 ob
使用 Flink LocalEnvironment 进行生产

我想了解本地执行环境的局限性以及它是否可以用于在生产中运行感谢任何帮助见解谢谢 LocalExecutionEnvironment 启动一个 Flink MiniCluster 它在单个 JVM 中运行整个 Flink 系统 JobM
Apache Flink：KeyedStream 上的数据分布不均匀

我在 Flink 中有这样的 Java 代码 env setParallelism 6 Read from Kafka topic with 12 partitions DataStream
如何在 Flink 中引用外部 Jar

每个人我尝试在所有任务管理器中以将其复制到 FLINK lib 的方式在 Flink 中引用我的公司 jar 但失败了而且我不想打包一个胖罐子太重而且浪费时间我认为第一种方法也不是一个好主意因为我必须管理整个集群中的jar 有谁知
Apache Flink 环境中的 AWS SDK 冲突

我正在尝试将我的作业部署到 Flink 环境但总是收到错误 java lang NoSuchMethodError com amazonaws AmazonWebServiceRequest putCustomQueryParameter
Apache Flink、JDBC 和 fat jar 是否存在类加载问题？

使用 Apache Flink 1 8 并尝试运行RichAsyncFunction 我得到No Suitable Driver Found初始化 Hikari 池时出错RichAsyncFunction open 在 IDE 中它运行得很
在 Flink 流中使用静态 DataSet 丰富 DataStream

我正在编写一个 Flink 流程序其中我需要使用一些静态数据集信息库 IB 来丰富用户事件的数据流对于例如假设我们有一个买家的静态数据集并且有一个传入的事件点击流对于每个事件我们希望添加一个布尔标志来指示事件的执行者是否是买家
Flink 流顺序

Flink 能保证流的执行顺序吗我有两个 Kafka 主题每个主题都有一个分区流 1 和流 2 并使用keyBy 流由一个处理coprocess功能在我的测试过程中我可以看到两个流的内容并不总是按顺序执行我可以将并行度设置为 1
基于流的应用程序中的受控/手动错误/恢复处理

我正在开发一个基于的应用程序Apache Flink 它利用Apache Kafka用于输入和输出该应用程序可能会被移植到Apache Spark 所以我也将其添加为标签问题仍然相同我要求通过 kafka 接收的所有传入消息必须按顺序
Cassandra Pojo Sink Flink 中的动态表名称

我是 Apache Flink 的新手我正在使用 Pojo Sink 将数据加载到 Cassandra 中现在我在以下命令的帮助下指定表和键空间名称 Table注解现在我想在运行时动态传递表名称和键空间名称以便可以将数据加载到用
Apache Flink 动态设置 JVM_OPT env.java.opts

是否可以设置自定义 JVM 选项env java opts提交作业时未在作业中指定conf flink conf yaml file 我问的原因是我想在 log4j 中使用一些自定义变量我也在 YARN 上运行我的工作我已经使用 CLI

随机推荐

在Java中获取电池电量

我想制作一个 java 应用程序来显示我的 mac OS X 的当前电池电量我读过了获取操作系统级别的系统信息 https stackoverflow com questions 25552 using java to get os le
尽管我使用的是 @Transactional 注释，但出现“无法初始化代理 - 无会话”

我正在使用 Spring 3 1 1 RELEASE 和 Hibernate 4 1 0 Final 尽管我将相关方法调用包装在 Transactional 注释中但我收到了无法初始化代理无会话异常这是我的方法 Service t
Python如何处理内存？

我一直在看一个内存数据库 http en wikipedia org wiki In memory database 这让我开始思考 Python 如何处理不依赖于连接的 IO 甚至是数据例如哈希集合等这是某个地方的配置还是基于资
.net 中的日期差异错误

我正在使用以下代码片段 lxDate 1 1 1970 GetUnixDate CType DateDiff S lxDate pDate Int32 其中 pDate 是用户输入的日期其格式为月日年例如 12 24 2014 这
如何清晰快速地使用 DBNull.Value 参数化空字符串

我厌倦了编写以下代码 Commenting out irrelevant parts public string MiddleName public void Save SqlCommand new SqlCommand blah blah
单击页面上的任意位置时，Bootstrap 3 btn-group 会丢失活动类

我正在研究以下演示 http jsfiddle net Behseini fzdfJ 1 我正在寻找为什么每当我单击页面上的任何位置时 btn group 就会失去 Active 类我期望 btn group 只能在彼此之间切换我在这里
如果不禁用 SSL，代码将无法运行

请看一下这段代码我的 Android 应用程序访问此页面以从某个来源获取日期这url返回一个 json 数据我将其打印回来然后在我的应用程序中处理该数据并显示它现在这对我来说效果很好我仍处于测试阶段我读到禁用SSL 我在第 6
如何为多个用户配置 phpMyAdmin - 每个用户只能访问其数据库

我想将 phpMyAdmin 配置为能够接受多个不同用户帐户登录之一每个用户都会被分配一个特定的数据库并且只能访问该数据库 phpMyAdmin 的默认配置是一个超级用户例如root 可以访问服务器上的每个数据库我需要能够让人们访问
Intel tbb parallel_for：传递带参数的类成员函数？

是否可以将类成员函数带参数传递给parallel for 大致意思是 void classT A const tbb blocked range
从 BQ 获取“无效架构更新。无法添加字段”，并在配置中设置了 ALLOW_FIELD_ADDITION

以下 python 代码片段会产生标题中的错误 job config bigquery QueryJobConfig Set the destination table table ref client dataset args bq da
实时更新 UI

我必须创建一个 WPF UI 它订阅实时外汇汇率货币汇率更新并将其显示在网格中每秒大约 1000 次更新这意味着网格中的每一行都可以更新upto每秒 1000 次网格在任何时间点都至少有 50 行为此我创建了一个订阅更新事件
我可以在 Emacs 中为 yanks 保留相同的项目吗？

Something I do often in Emacs is to cut a bit of text and then replace another bit with the cut text So say I ve got the
尝试使用 EPPlus 在服务器上读取 Excel 文件，但不能通过浏览器读取

当我发布我的项目并运行它时on服务器它工作了 EPPlus 找到了所有 4 个工作表迭代它们并将我的数据上传到 SQL 但是当我通过我的浏览器或我同事的浏览器运行它时它显示 0 个工作表知道为什么会发生这种情况吗此时的代码并不多
Objective-C 的“#ifdef __IPHONE_11_0”的 Swift 等价物是什么？

我想使用 Xcode 9 将 iOS 11 代码添加到我的项目中同时保留使用仅支持 iOS 10 的 Xcode 8 编译项目的选项在 Objective C 中我可以通过使用预处理器指令来检查是否 IPHONE 11 0被定义为如
如何在Excel电子表格列中查找连续数字的特定数据

请帮助我找到电子表格列中存在的数字序列我的Excel列中有大量1和0的数据我需要找到该列中连续的1和0的序列例如我的excel列如下 0 0 1 1 0 0 1 0 1 0 0 1 1 0 1 1 1 0 0 请假设这是我的一些列数
原始数组与 ArrayList

我正在接收 XML 需要转换为原始数组或 ArrayList 内存和垃圾回收方面的性能有很大差异吗我的应用程序每秒将创建数千个这样的对象并且我需要最大限度地减少 GC 因为我需要实时性能 Thxs 原始数组效率更高因为它们不需要包装对
Javascript 中对具有属性的函数引用的混淆

在下面的 JavaScript 代码中 function foo foo val foo val no val return foo has foo val function bar bar val bar val no val retur
从模块中角度导出的组件在另一个模块中不可用

我正在 AppModule 中导出自定义组件但无法在 AppModule 中导入的另一个模块中使用它我认为导出的组件在全球范围内都是可见的我试图在 TestModule 内的组件中使用 CalendarComponent 和选择器 a
发布代码覆盖率在 Azure DevOps 中找不到覆盖率文件

我正在使用节点14 x和开玩笑26 x 有一个npm testpackage json 文件中的脚本包含以下内容 cross env NODE ENV test jest coverage forceExit 当我在本地运行它时它会生成代
我可以将自定义分区器与 group by 一起使用吗？

假设我知道我的数据集不平衡并且我知道键的分布我想利用它来编写一个自定义分区器以充分利用运算符实例我知道关于数据流 partitionCustom https ci apache org projects flink flink doc

我可以将自定义分区器与 group by 一起使用吗？

我可以将自定义分区器与 group by 一起使用吗？ 的相关文章

随机推荐

热门标签

我可以将自定义分区器与 group by 一起使用吗？的相关文章