Apache Flink 如何处理倾斜数据？

2023-12-21

例如，我有一大堆单词，想统计每个单词的数量。问题是这些话是歪曲的。这意味着某些单词的频率会很高，但大多数其他单词的频率很低。在storm中，我们可以使用下面的方式来解决这个问题。首先对流进行随机分组，在每个节点中对窗口时间内本地的单词进行计数，最后更新计数到累积结果。来自我的另一个question https://stackoverflow.com/questions/33446247/apache-flink-streaming-window-wordcount，我知道Flink只支持keyed Stream上的窗口，否则窗口操作不会是并行的。

我的问题是Flink中有没有好的方法来解决这种数据倾斜的问题？

DataStream API 目前不原生支持预聚合。原则上，可以为事件时间窗口添加类似组合器的功能。 IMO，这将是一个非常有价值的补充，但尚未完成。

但是，您可以自己实现此功能。 DataStream API 提供类似于 Storm Bolts 的低级操作员界面。该接口称为OneInputStreamOperator。此操作符类型使您可以完全控制。事实上，内置的运算符（例如Window运算符）也是基于该类的。

A OneInputStreamOperator可以这样应用：

DataStream<Tuple2<String,Integer> inStream = ...
DataStream<String> outStream = inStream
  .transform("my op", BasicTypeInfo.STRING_TYPE_INFO, new MyOISO());

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apacheflink

Apache Flink 如何处理倾斜数据？的相关文章

如何使用 Flink SQL 按事件时间对流进行排序

我有一个故障DataStream
Flink - 多源集成测试

我有一份 Flink 工作正在使用此处描述的方法进行集成测试 https ci apache org projects flink flink docs stable dev stream testing html integration
我的 Pyflink 设置有什么问题导致 Python UDF 抛出 py4j 异常？

我正在使用文档中的 flink python datastream 教程 https ci apache org projects flink flink docs master docs dev python datastream tut
如何在 flink 独立安装上进行 kerberos 身份验证？

我有一个独立的 Flink 安装我想在其上运行一个将数据写入 HDFS 安装的流作业 HDFS 安装是 Cloudera 部署的一部分需要 Kerberos 身份验证才能读取和写入 HDFS 由于我没有找到有关如何使 Flink 与受
ClassNotFoundException：使用 kafka 主题时出现 org.apache.flink.streaming.api.checkpoint.CheckpointNotifier

我正在使用最新的 Flink 1 1 2 Hadoop 27 和 flink connector kafka 0 10 2 hadoop1 jar Flink消费者如下 StreamExecutionEnvironment env Stre
是否可以将 Riak CS 与 Apache Flink 一起使用？

我要配置filesystem状态后端和zookeeper恢复模式 state backend filesystem state backend fs checkpointdir recovery mode zookeeper recover
Flink REST API错误：请求与预期格式JarRunRequestBody不匹配

尝试使用下面的 REST API 远程运行 Flink 作业但抛出错误 curl X POST H Content Type application json data type object id urn jsonschema org
Flink 仪表板版本 1.3.2 中无法执行 CEP 模式，这是由 ClassNotFoundException 引起的

我写了一个像这样的简单模式 Pattern
logback 在 Flink 中不起作用

我有一个单节点 Flink 实例它在 lib 文件夹中具有 logback 所需的 jar logback classic jar logback core jar log4j over slf4j jar 我已从 lib 文件夹中删除了
SingleOutputStreamOperator#returns(TypeHint typeHint) 方法的 javadoc

我正在阅读源代码SingleOutputStreamOperator returns 它的javadoc是 Adds a type information hint about the return type of this operato
为什么 Flink 在 DataStream join + Global window 上发出重复记录？

我正在学习试验 Flink 并且观察到 DataStream 连接的一些意外行为并且想了解发生了什么假设我有两个流每个流有 10 条记录我想将其加入到id场地假设一个流中的每条记录在另一个流中都有一个匹配的记录并且 ID 在每
Apache Flink：设置并行度的指南？

我正在尝试获取一些简单的规则或指南来设置哪些值操作员或工作并行性在我看来它应该是一个数字例如假设我有 2 台任务管理器机器每台都有 4 个任务槽假设集群上没有运行其他作业我会设置并行度吗用于操作喜欢过滤并映射到 8 如
Apache Flink：如何从 Cassandra 读取数据流/数据集？

我尝试将 Cassandra 视为 Flink 中的数据源并使用以下链接中提供的信息从 Cassandra 读取数据以在 Flink 中进行处理 https stackoverflow com questions 43067681 re
处理时间窗口不适用于 Apache Flink 中的有限数据源

我正在尝试将一个非常简单的窗口函数应用于 Apache Flink 中的有限数据流本地无集群这是例子 val env StreamExecutionEnvironment getExecutionEnvironment env fro
StreamingFileSink 未将数据提取到 s3

我创建了简单的摄取服务该服务选择本地文件并使用 StreamingFileSink 摄取到 s3 https ci apache org projects flink flink docs stable dev connectors st
Flink 中的水印和触发器有什么区别？

我读到排序运算符必须缓冲它接收到的所有元素然后当它接收到水印时它可以对时间戳低于水印的所有元素进行排序并按排序顺序发出它们这是正确因为水印表明不能有更多元素到达并与已排序元素混合 https cwiki apache org
Flink CEP：对于不同类型的事件，使用哪种方法加入数据流？

假设我有两种不同类型的数据流一种提供天气数据另一种提供车辆数据我想使用 Flink 对数据进行复杂的事件处理 Flink 1 3 x 中哪种方法是正确的使用方法我看到了不同的方法如 Union Connect Window Joi
在 Flink 中，我可以在同一个槽中拥有一个算子的多个子任务吗？

探索Apache Flink几天了对Task Slot的概念有些疑惑虽然有人问了几个问题但有一点我不明白我正在使用一个玩具应用程序进行测试运行本地集群我已禁用运算符链接我从文档中知道插槽允许内存隔离而不是 CPU 隔离阅读文
对 Parquet 批量格式使用压缩

从 Apache Flink 1 15 版本开始您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre
Apache Flink - “keyBy”中的异常处理

由于代码错误或缺乏验证进入 Flink 作业的数据可能会触发异常我的目标是提供一致的异常处理方式我们的团队可以在 Flink 作业中使用这种方式而不会导致生产中出现任何停机重启策略似乎不适用于此处因为简单的重启无法解决问题我

随机推荐

在哪里引发持久性相关的域事件 - 服务、存储库或 UI？

我的 ASP NET MVC3 NHibernate 应用程序需要触发和处理与我的域对象相关的各种事件例如一个Order对象可能有类似的事件OrderStatusChanged or NoteCreatedForOrder 在大多数情况
在开发多个相关的 R 包时使用 ::: 或导出所有内容？

我正在开发一系列 R 包所有这些包都共享大量公共代码这些代码位于一个内部包中我们称之为myPackageUtilities 所以我有几个包 myPackage1 myPackage2 etc 所有这些包都依赖于中的每个方法myPack
AsyncTask线程执行后仍然存在，这正常吗？

当我在 DDMS 中使用 AsyncTasks 检查时该线程在 onPostExecute 方法之后作为等待线程保留在内存中这正常吗这是一个重现我的问题的简化活动 package com example async import an
如何通过 django 代码识别我的 Linux 电脑上的文本文件而不检查其扩展名及其文件大小？ [复制]

这个问题在这里已经有答案了大多数时候当我们在Linux中使用gedit创建一个新的文本文件时该文件不会以扩展名保存 txt对于文本文件那么我将如何认出它与django代码因为这里我无法检查文件扩大这是我的代码假设我在以下 mo
仅当嵌入到 Iframe 中时，防伪造令牌 Cookie 不会出现在请求标头中

我正在尝试嵌入一个简单的 Web 应用程序它将运行 asp net Core 2 0 的用户输入发布到 iframe 中我遇到的问题是在嵌入时生成的请求标头缺少包含 AspNetCore Antiforgery token 的 co
使用Android隐藏API访问指纹信息

我正在为大学的一个教育目的项目使用 Android Hidden API 特别是我正在研究指纹验证我的目标是采取Fingerprint对象从AuthenticationResult AuthenticationResult 有两个 ge
如何创建 resx 文件

我正在尝试在 Windows 窗体应用程序中使用图标我读到您可以使用 resx 文件来执行此操作我还读到 resx 文件可用于本地化但这不是这个问题的重点我或多或少知道如何use一个 resx 文件如果我有的话见下文我不知道并
配置 WCF 客户端绑定以在 dotnet core 2.2 中使用 X509 证书

我正在尝试将旧的 WCF 客户端转换为 dotnet core 我成功地从 wsdl 生成了代理并一直在尝试配置它们以便我可以成功调用端点根据一些谷歌搜索似乎在 dotnet core 下我需要从代码配置我的 WCF 客户端以下是
MsTest - 在程序集中的每个测试之前执行方法

是否可以在程序集中的每次测试之前运行特定方法我知道关于TestInitialize属性但该属性具有类范围如果它是在 Test 类中定义的它将在该类的每个测试之前执行我想定义一个方法该方法将在整个程序集中定义的每个测试之前执行
如何在 OpenCV 中测试线条的接近度（霍夫变换）

这是来自上一个问题 https stackoverflow com questions 1238085 我能够成功地使用 OpenCV Hough 变换来检测图片扫描文本中的线条起初它会检测很多行每行文本至少一行但通过反复试验调整
因果报应 vs 厚颜无耻

我一直在试图找出在 Visual Studio 中编写运行自动化茉莉花测试的最佳方法是什么目前我将 jasmine 与 Resharper 使用 PhantomJS 一起使用并且可以从 Visual Studio 运行测试现在我想
用 javascript 或 jquery 替换现有的规范标签

我想为 Adob e Muse 创建一个小部件以替换 Muse 自动生成的规范标签我知道这不适用于大多数机器人因为它们在抓取页面时不运行任何脚本但我读到 Google 的机器人在抓取时确实运行脚本我发现了很多关于如何替换链接中的
R 中的调查包：如何设置 fpc 参数（有限总体校正）

我使用与大小成比例的概率 PPS 计划从采样框架中采样了一些数据这样我就采样了6两个变量组合的分层 gender and pre与比例 pre gender High Low Medium F 0 155 0 155 0 195 M 0
如何使用jQuery删除样式属性下的宽度属性？

div class views style width 421px height 15px TEST TEXT div 如何使用jQuery删除样式属性下的宽度属性我知道removeAttr 宽度但它在这里不起作用因为 width 是
Mobile Safari：机身上的惯性滚动和最小的 UI 行为？

这个问题需要一些解释所以请耐心等待与普遍看法相反默认情况下 Mobile Safari 中的网页不启用惯性滚动非常流畅的 60fps 滚动由于它对用户体验产生了巨大的影响在专门针对 iOS 进行 Modernizr 测试之后我
在 Spring Boot 1.4 中测试安全性

我正在尝试测试 WebMvcTest与定义的自定义安全设置SecurityConfig class Configuration EnableWebSecurity public class SecurityConfig extends We
如何在iOS中将UILabel的字体名称设置为HelveticaNeue Thin？

我正在创建 UILabel 对于标签我可以将字体名称设置为 HelveticaNeue Regular Light UltraLight 等但我无法将字体名称设置为 HelveticaNeue Thin 它无法按预期工作我喜欢 lab
ZoomExtents 方法调用的工作方式与通过手势激活 ZoomExtents 不同

我一直在 MVVM 风格应用程序中开发一个小型 3D 预览窗口创建视图然后设置其数据上下文因此 ZoomExtentsWhenLoaded True 似乎并不能帮助完成我需要的事情我需要类似 ZoomExtentsWhenDataC
如何使用ansible读取json文件

我的 ansible 脚本所在的目录中有一个 json 文件以下是json文件的内容 resources name package1 downloadURL path to file1 name package2 downloadURL
Apache Flink 如何处理倾斜数据？

例如我有一大堆单词想统计每个单词的数量问题是这些话是歪曲的这意味着某些单词的频率会很高但大多数其他单词的频率很低在storm中我们可以使用下面的方式来解决这个问题首先对流进行随机分组在每个节点中对窗口时间内本地的单词进行计

Apache Flink 如何处理倾斜数据？

Apache Flink 如何处理倾斜数据？ 的相关文章

随机推荐

热门标签

Apache Flink 如何处理倾斜数据？的相关文章