Flink 处理事件太慢

2024-01-11

我使用 Kinesis 数据流作为源，使用 elasticsearch 作为接收器。在 AWS Kinesis Data 分析应用程序中运行 Flink 作业。

事件示例：

{"area":"sessions","userId":4450,"date":"2021-12-03T11:00:00","videoDuration":5}

我正在从前端收集这些视频观看事件，同时视频每 5 秒为一名用户播放一次。这些事件用于计算用户的观看时间。

假设如果一个用户正在观看视频，则前端每 5 秒生成一次此事件并摄取到 Kinesis 数据流中。有 10,000 个用户观看视频，因此一分钟内总共生成了 120,000 个事件。

加工用120,000 个事件我的 Flink 工作几乎需要〜4分钟的时间。这是相当长的一段时间了。

那么如何才能提高工作绩效呢？我需要在1分钟。

我的工作是这样的：

        stream
                .keyBy(e -> e.getUserId())
                .timeWindow(Time.seconds(60))
                .reduce(new MyReduceFunction()) //sum of video duration for user
                .map(<enrich event using some data from redis>)
                .addSink(<elasticsearch sink>);

// Reduce function 

 private static class MyReduceFunction implements ReduceFunction<TrackingData> {
        @Override
        public TrackingData reduce(TrackingData trackingData, TrackingData t1) throws Exception {
                trackingData.setVideoDuration(trackingData.getVideoDuration() + t1.getVideoDuration());
                return trackingData;
        }
    }

那么这项工作首先从 Kinesis Data 流接收事件，然后通过该流键入userId然后我做了一些videoDuration1 分钟后，这些数据进入丰富功能，在该功能中，我从 Redis 读取一些数据并丰富该事件，然后将该事件放入 Elasticsearch。

我尝试过增加作业的并行度，它为 1 个并行度（大约 4 分钟）提供了最佳性能。如果我增加并行度，就会花费更多时间，这很奇怪。尝试过 2、4、8、16 等。增加并行性应该可以加快处理速度，不是吗？

任何人都可以帮助我在 Flink 作业中缺少什么或做错了什么，我需要做什么才能在 1 分钟内加速这些事件？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apacheflink

flinkstreaming

amazonkinesisanalytics

Flink 处理事件太慢的相关文章

Apache Flink 与 Elasticsearch 集成

我正在尝试将 Flink 与 Elasticsearch 2 1 1 集成我正在使用 Maven 依赖项
如何判断 Apache Flink 运行在哪个端口？

我安装了 apache flink 转到flink 1 14 3文件夹并运行 bin start cluster sh 它似乎已成功启动集群因为它输出了以下内容 Starting cluster Starting standalonese
Flink：将文件与kafka流连接

我有一个问题我真的无法弄清楚所以我有一个 kafka 流其中包含一些如下数据 adId 9001 eventAction start eventType track eventValue timestamp 1498118549550
SingleOutputStreamOperator#returns(TypeHint typeHint) 方法的 javadoc

我正在阅读源代码SingleOutputStreamOperator returns 它的javadoc是 Adds a type information hint about the return type of this operato
Apache Flink 1.3 中的 Elasticsearch 5 连接器

通过阅读文档我了解到使用 Apache Flink 1 3 我应该能够使用 Elasticsearch 5 x 但是在我的 pom xml 中
flink集群启动错误[ERROR]无法正确获取JVM参数

bin start cluster sh Starting cluster INFO 1 instance s of standalonesession are already running on centos1 Starting sta
处理时间窗口不适用于 Apache Flink 中的有限数据源

我正在尝试将一个非常简单的窗口函数应用于 Apache Flink 中的有限数据流本地无集群这是例子 val env StreamExecutionEnvironment getExecutionEnvironment env fro
如何在 Flink 中引用外部 Jar

每个人我尝试在所有任务管理器中以将其复制到 FLINK lib 的方式在 Flink 中引用我的公司 jar 但失败了而且我不想打包一个胖罐子太重而且浪费时间我认为第一种方法也不是一个好主意因为我必须管理整个集群中的jar 有谁知
Python + Beam + Flink

我一直在尝试让 Apache Beam 可移植性框架与 Python 和 Apache Flink 一起使用但我似乎找不到一套完整的指令来让环境正常工作是否有任何参考资料包含使简单的 python 管道正常工作的先决条件和步骤的完整列表
示例 flink 作业的错误消息：无法使字段 private Final byte[] java.lang.String.value 可访问

我正在开始使用 Apache Flink 我将发布我遇到的错误然后复制它的步骤这是我运行的命令 bin flink run examples streaming WordCount jar input 这是错误文本 org apache
Flink CEP：对于不同类型的事件，使用哪种方法加入数据流？

假设我有两种不同类型的数据流一种提供天气数据另一种提供车辆数据我想使用 Flink 对数据进行复杂的事件处理 Flink 1 3 x 中哪种方法是正确的使用方法我看到了不同的方法如 Union Connect Window Joi
在 Flink 流中使用静态 DataSet 丰富 DataStream

我正在编写一个 Flink 流程序其中我需要使用一些静态数据集信息库 IB 来丰富用户事件的数据流对于例如假设我们有一个买家的静态数据集并且有一个传入的事件点击流对于每个事件我们希望添加一个布尔标志来指示事件的执行者是否是买家
Flink 的简单 hello world 示例

我正在寻找 Apache flink 的 hello world 体验的最简单的示例假设我刚刚在一个干净的盒子上安装了 flink 那么为了让它做某事我需要做的最低限度是什么我意识到这很模糊这里有一些例子来自终端的三个 pyth
Flink 检查点到 Google Cloud Storage

我正在尝试为 GCS 中的 flink 作业配置检查点如果我在本地运行测试作业没有 docker 和任何集群设置一切正常但如果我使用 docker compose 或集群设置运行它并在 flink 仪表板中使用作业部署 fat ja
Flink 使用 Ceph 作为持久存储

Flink 文档建议 Ceph 可以用作状态的持久存储 https ci apache org projects flink flink docs release 1 3 dev stream checkpointing html http
flink - 使用匕首注入 - 不可序列化？

我使用 Flink 最新通过 git 从 kafka 流式传输到 cassandra 为了简化单元测试我通过 Dagger 添加依赖注入 ObjectGraph 似乎已正确设置自身但内部对象被 Flink 标记为不可序列化如果我
对 Parquet 批量格式使用压缩

从 Apache Flink 1 15 版本开始您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre
Apache Flink - “keyBy”中的异常处理

由于代码错误或缺乏验证进入 Flink 作业的数据可能会触发异常我的目标是提供一致的异常处理方式我们的团队可以在 Flink 作业中使用这种方式而不会导致生产中出现任何停机重启策略似乎不适用于此处因为简单的重启无法解决问题我
将 flink 从 1.10 升级到 1.11，遇到错误“找不到执行应用程序的 ExecutorFactory”

java lang IllegalStateException No ExecutorFactory found to execute the application at org apache flink core execution D
Flink 窗口：聚合并输出到接收器

我们有一个数据流其中每个元素都是这种类型 id String type Type amount Integer 我们想要聚合这个流并输出总和amount每周一次目前的解决方案 Flink 管道示例如下所示 stream keyBy ty

随机推荐

内部样式表在 IE9 中无法与 jsf 一起工作

我正在使用 jsf2 0 和 primefaces 我的应用程序在包括 IE8 在内的所有浏览器上运行良好但是当我在 IE9 中运行我的应用程序时我的内部样式表甚至没有被浏览器 IE9 采用样式被破坏了我头上的CSS
Gson根据字段名自定义反序列化逻辑

我的课是这样的 class Foo public String duration public String height 我的 json 数据看起来像 duration 12200000 height 162 现在我想反序列化它 Foo
MVC4 WebAPI 的正确架构是什么

我进行了一些搜索但没有找到此问题的可用答案好吧我的MVC 3架构是这样的 Project EDM contains only the entity framework edmx file and its tt and cs entit
如何使用curl进行POST而不收到HTTP错误422“无法处理的实体”？

我正在尝试向登录端点发送 POST 请求我不断收到 HTTP 错误422 Unprocessable Entity 我该如何克服这个错误以下是我尝试过的一些命令示例 curl v X POST F user email email pr
没有足够的权限访问 S3 中的数据

我正在关注以下教程入门控制台 Amazon Personalize https docs aws amazon com personalize latest dg getting started console htmlAmazon Sa
在 angularJS select 指令中设置所选项目

我在 Angular 的 select 指令中设置所选项目时遇到问题我不知道这是一个bug还是Angular的设计者有意识的设计但它确实使 select 指令的用处大大降低描述我的应用程序与 REST API 通信以从数据库接收实体
我可以只向某些人分发我的 iPhone 应用程序吗？

我想开发一个只有我的客户才能使用的特定应用程序如何限制该应用程序只能由我认可的人下载 Thanks 通过应用程序商店正常分发应用程序并需要解锁密钥才能运行它仅将解锁密钥分发给批准的用户
升级到 Spring 3.2 后出现 HttpMediaTypeNotAcceptableException

将 Spring MVC 应用程序升级到 Spring 3 2 后在访问某些 URL 时出现以下异常 org springframework web HttpMediaTypeNotAcceptableException Could no
暂停 android 下载管理器

在我的应用程序中我从服务器下载电影其中一些非常大 4GB 或更大我尝试将自己的下载管理器实现为一项服务但效果并不好在某些设备上应用程序会在没有任何通知的情况下自行崩溃总体而言下载速度似乎太慢所以我想使用 Android 的
反序列化对象时出错

我有一个 JSON 字符串 target FDOL00001 datapoints y 72 564 x 1523858700 target FDOL00001 datapoints y 86 366 x 1523858700 target
在 PHP 中将十六进制颜色转换为 RGB 值

转换十六进制颜色值的好方法是什么 ffffff转换为单个 RGB 值255 255 255使用 PHP 如果你想将十六进制转换为RGB 你可以使用sscanf https www php net manual en function ssc
PHP 服务器端打印

我过去几个小时一直在谷歌搜索似乎找不到答案我确实接近了这个问题 https stackoverflow com questions 1648399 starting serverside print job via php 我的 Win
带单行的 Mercurial 日志

常规的hg log命令给出每个变更集至少有 4 行的输出例如 changeset 238 03a214f2a1cf user My Name lt email protected cdn cgi l email protection gt
在联系页面添加地址簿

我想在我的地址簿中添加contact页面我想以编程方式执行此操作i e不使用nib files 谁能给我推荐一个不错的教程或示例代码我已经使用了 iPatel 给出的答案的代码当我运行时它抛出异常并且应用程序正在终止感谢致敬这是编
从 MySQL 中提取所有 JSON 键

我有一个 JSON 列属性例如 a 2 b 5 c 3 a 5 d 1 c 7 e 1 f 7 如何从 MySQL 获取所有不同的顶级键名像这样 a b c d e f 谢谢你测试表 id json col 2 a 2 b 5 3
从毫秒计算周数、天数和小时数

周围有很多类似的问题但没有一个解决这个计算使用 javascript i 很容易找到 ex 的黑白 2 个日期的毫秒数 var mil Math floor new Date 1 1 2012 new Date 1 7 2012 mil
OnItemClick 侦听器和单击的视图项的可见性

我有一个 ListView 其中每个项目都包含一个Textview and ImageView其中imageView is invisible通过单击每个列表视图项目它将visible我的代码是 Override public void
Flask sqlAlchemy 与 Flask_Marshmallow 的验证问题

使用flask marshmallow进行输入验证并使用scheme load 我无法捕获模型中 validates装饰器生成的错误我捕获了资源中的结果和错误但错误会直接发送给用户模型 py python from sqlalche
通过上下文菜单运行 cmd 时 PATH 变量不同

我刚刚花了最后一个小时试图找出为什么我的 PATH 变量没有更新我的 cmd exe 现在我发现它确实更新了但仅限于某些条件我通过更新它Win Break gt Change Settings gt Advanced gt Enviro
Flink 处理事件太慢

我使用 Kinesis 数据流作为源使用 elasticsearch 作为接收器在 AWS Kinesis Data 分析应用程序中运行 Flink 作业事件示例 area sessions userId 4450 date 2021

Flink 处理事件太慢

Flink 处理事件太慢 的相关文章

随机推荐

热门标签

Flink 处理事件太慢的相关文章