Flink之IntervalJoin介绍

2023-11-13

InterValJoin算子
间隔流，一条流去join另一条流去过去一段时间内的数据，该算子将keyedStream与keyedStream转化为DataStream；再给定的时间边界内（默认包含边界），相当于一个窗口，按指定的key对俩个KeyedStream进行Join操作，把符合join条件的俩个event拉倒一起，然后咋么处理右用户来决定。
1、key1 == key2 && e1.timestamp +lowerBound <= e2.timestamp +upperBound
2、场景：把一定时间范围内相关的分组数据拉成一个宽表

语法规则：

leftKeyedStream
.intervalJoin(rightKeyedStream)
//时间间隔，设定下界和上界
.between(Time.minutes(-10),Time.seconds(0))
//不包含下界
.lowerBoundExclusive()
//不包含上界
.upperBoundExclusive()
//自定义ProcessJoinFunction 处理join到的元组
.process(ProcessJoinFunction)

该算子的注意事项：
1、俩条流都缓存在内部state中。leftElement到达，去获取State中rightElement响应时间范围内的数据，然后执行ProcessJoinFunciton进行Join操作；
2、时间间隔：leftElement默认和【leftElementEventTime + lowerBound，leftElementEventTime +upperBound】时间范围内的rightElement join；
3、举例：leftElementEventTime = 2019-11-16 17:30:00，lowerBound=-10minute,upperBound=0,则这条leftElement按Key和【2019-11-16 17:20:00,2019-11-16 17:30:00】时间范围内的rightElementJoin；
4、IntervalJoin目前只支持EventTime；
5、数据量比较大，可能使用RocksDBStateBackend

demo案列：

package Flink_API;

import org.apache.flink.api.common.functions.JoinFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.ProcessFunction;
import org.apache.flink.streaming.api.functions.co.ProcessJoinFunction;
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010;
import org.apache.flink.streaming.util.serialization.KeyedDeserializationSchema;
import org.apache.flink.table.shaded.org.joda.time.DateTime;
import org.apache.flink.table.shaded.org.joda.time.format.DateTimeFormat;
import org.apache.flink.table.shaded.org.joda.time.format.DateTimeFormatter;
import org.apache.flink.util.Collector;

import java.io.Serializable;
import java.util.Properties;

public class TestInterViewJoin {

        public static void main(String[] args) throws Exception {
            //创建运行环境
            StreamExecutionEnvironment env=StreamExecutionEnvironment.getExecutionEnvironment();
            //Flink是以数据自带的时间戳字段为准
            env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
            //设置并行度
            env.setParallelism(1);

            //1、获取第一个流，获取用户的浏览信息
            DataStream<UserBrowseLog> browseStream = getUserBrowseDataStream(env);
            //2、获取用户的点击信息
            DataStream<UserClickLog> clickStream = getUserClickLogDataStream(env);

            //打印结果
            browseStream.print();
            clickStream.print();

            //核心：双流进行IntervalJoin操作：每个用户的点击信息Join这个用户最近10分钟内的浏览信息
            //browseStream(左流)关联clickStream（右流）
            KeyedStream<UserClickLog,String> userClickLogStringKeyedStream = clickStream.keyBy(new KeySelector<UserClickLog,String>(){

                @Override
                public String getKey(UserClickLog userClickLog) throws Exception {
                    return userClickLog.userID;
                }
            });
            KeyedStream<UserBrowseLog,String> userBrowseLogStringKeyedStream1=browseStream.keyBy(new KeySelector<UserBrowseLog,String>(){
                @Override
                public String getKey(UserBrowseLog userBrowseLog) throws Exception {
                    return userBrowseLog.userID;
                }
            });
            //每个用户的点击Join这个用户最近的10分钟内的浏览
            DataStream<String> processData = userClickLogStringKeyedStream.intervalJoin(userBrowseLogStringKeyedStream1)
                    .between(Time.minutes(-10),Time.seconds(0))//下界：10分钟，上界：当前EventTime时刻（左流去右流10分钟之前去找数据）
                    .process(new ProcessJoinFunction<UserClickLog, UserBrowseLog, String>() {
                        //leftElement到达，去获取State中rightElement响应范围内的数据，然后执行ProcessJoinFunction进行Join操作：
                        @Override
                        public void processElement(UserClickLog left, UserBrowseLog right, Context context, Collector<String> collector) throws Exception {
                            collector.collect(left+"<IntevalJoin>"+right);
                        }
                    });
            processData.print();

            //程序的入口类
            env.execute("TestInterViewJoin");

        }

        private static DataStream<UserClickLog> getUserClickLogDataStream(StreamExecutionEnvironment env) {
            Properties consumerProperties = new Properties();
            consumerProperties.setProperty("bootstrap.severs","page01:9002");
            consumerProperties.setProperty("grop.id","browsegroup");

            DataStreamSource<String> dataStreamSource=env.addSource(new FlinkKafkaConsumer010<String>("browse_topic1", (KeyedDeserializationSchema<String>) new SimpleStringSchema(),consumerProperties));

            DataStream<UserClickLog> processData=dataStreamSource.process(new ProcessFunction<String, UserClickLog>() {
                @Override
                public void processElement(String s, Context context, Collector<UserClickLog> collector) throws Exception {
                    try{
                        UserClickLog browseLog = com.alibaba.fastjson.JSON.parseObject(s, UserClickLog.class);
                        if(browseLog !=null){
                            collector.collect(browseLog);
                        }
                    }catch(Exception e){
                        System.out.print("解析Json——UserBrowseLog异常："+e.getMessage());
                    }
                }
            });
            //设置watermark
            return processData.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<UserClickLog>(Time.seconds(0)){
                @Override
                public long extractTimestamp(UserClickLog userBrowseLog) {
                    DateTimeFormatter dateTimeFormatter= DateTimeFormat.forPattern("yyyy-MM-dd HH:mm:ss");
                    DateTime dateTime=DateTime.parse(userBrowseLog.getEventTime(),dateTimeFormatter);
                    //用数字表示时间戳，单位是ms，13位
                    return dateTime.getMillis();
                }
            });
        }

        private static DataStream<UserBrowseLog> getUserBrowseDataStream(StreamExecutionEnvironment env) {
            Properties consumerProperties = new Properties();
            consumerProperties.setProperty("bootstrap.severs","page01:9001");
            consumerProperties.setProperty("grop.id","browsegroup");

            DataStreamSource<String> dataStreamSource=env.addSource(new FlinkKafkaConsumer010<String>("browse_topic", (KeyedDeserializationSchema<String>) new SimpleStringSchema(),consumerProperties));

            DataStream<UserBrowseLog> processData=dataStreamSource.process(new ProcessFunction<String, UserBrowseLog>() {
                @Override
                public void processElement(String s, Context context, Collector<UserBrowseLog> collector) throws Exception {
                    try{
                        UserBrowseLog browseLog = com.alibaba.fastjson.JSON.parseObject(s, UserBrowseLog.class);
                        if(browseLog !=null){
                            collector.collect(browseLog);
                        }
                    }catch(Exception e){
                        System.out.print("解析Json——UserBrowseLog异常："+e.getMessage());
                    }
                }
            });
            //设置watermark
            return processData.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<UserBrowseLog>(Time.seconds(0)) {
                @Override
                public long extractTimestamp(UserBrowseLog userBrowseLog) {
                    DateTimeFormatter dateTimeFormatter= DateTimeFormat.forPattern("yyyy-MM-dd HH:mm:ss");
                    DateTime dateTime=DateTime.parse(userBrowseLog.getEventTime(),dateTimeFormatter);
                    //用数字表示时间戳，单位是ms，13位
                    return dateTime.getMillis();
                }
            });
        }

        //浏览类
        public static class UserBrowseLog implements Serializable {
            private String userID;
            private String eventTime;
            private String eventType;
            private String productID;
            private Integer productPrice;

            public String getUserID() {
                return userID;
            }

            public void setUserID(String userID) {
                this.userID = userID;
            }

            public String getEventTime() {
                return eventTime;
            }

            public void setEventTime(String eventTime) {
                this.eventTime = eventTime;
            }

            public String getEventType() {
                return eventType;
            }

            public void setEventType(String eventType) {
                this.eventType = eventType;
            }

            public String getProductID() {
                return productID;
            }

            public void setProductID(String productID) {
                this.productID = productID;
            }

            public Integer getProductPrice() {
                return productPrice;
            }

            public void setProductPrice(Integer productPrice) {
                this.productPrice = productPrice;
            }

            @Override
            public String toString() {
                return "UserBrowseLog{" +
                        "userID='" + userID + '\'' +
                        ", eventTime='" + eventTime + '\'' +
                        ", eventType='" + eventType + '\'' +
                        ", productID='" + productID + '\'' +
                        ", productPrice=" + productPrice +
                        '}';
            }
        }
        //点击类
        public static class UserClickLog implements Serializable{
            private String userID;
            private String eventTime;
            private String eventType;
            private String pageID;

            public String getUserID() {
                return userID;
            }

            public void setUserID(String userID) {
                this.userID = userID;
            }

            public String getEventTime() {
                return eventTime;
            }

            public void setEventTime(String eventTime) {
                this.eventTime = eventTime;
            }

            public String getEventType() {
                return eventType;
            }

            public void setEventType(String eventType) {
                this.eventType = eventType;
            }

            public String getPageID() {
                return pageID;
            }

            public void setPageID(String pageID) {
                this.pageID = pageID;
            }

            @Override
            public String toString() {
                return "UserClickLog{" +
                        "userID='" + userID + '\'' +
                        ", eventTime='" + eventTime + '\'' +
                        ", eventType='" + eventType + '\'' +
                        ", pageID='" + pageID + '\'' +
                        '}';
            }
        }

}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Flink之IntervalJoin介绍的相关文章

ELK配置记录（filebeat+kafka+Logstash+Elasticsearch+Kibana）

一简介 elk日志平台日志收集分析和展示的解决方案满足用户对志的查询排序统计需求 elk架构 filebeat 采集 kafka Logstash 管道 Elasticsearch 存储搜索 Kibana 日志应用各组件功
Flink on Zeppelin-2

Flink Interpreter类型首先介绍下Zeppelin中的Flink Interpreter类型 Zeppelin的Flink Interpreter支持Flink的所有API DataSet DataStream Table
Kafka入门基础知识学习笔记-Kafka只是消息引擎吗

学习极客时间 Kafka核心技术与实战入门 03 05 作者胡夕 Apache Kafka 的一名代码贡献者目前在社区的 Patch 提交总数位列第 22 位应该说算是国内比较活跃的贡献者了胡夕老师赠言聪明人也要下死功夫最近
数据中台-让数据用起来-6

文章目录第六章数据开发数据价值提炼工厂 6 1 数据计算能力的4种类型 6 1 1 批计算 6 1 2 流计算 6 1 3 在线查询 6 1 4 即席分析 6 2 离线开发 1 作业调度 2 基线控制 3 异构存储 4 代码校验 5
flink大数据处理流式计算详解

flink大数据处理文章目录 flink大数据处理二 WebUI可视化界面测试用三 Flink部署 3 1 JobManager 3 2 TaskManager 3 3 并行度的调整配置 3 4 区分 TaskSolt和parall
流计算框架 Flink 与 Storm 的性能对比

概述将分布式实时计算框架 Flink 与 Storm 进行性能对比为实时计算平台和业务提供数据参考一背景 Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架其中 Apache Sto
【基础】Flink -- ProcessFunction

Flink ProcessFunction 处理函数概述处理函数基本处理函数 ProcessFunction 按键分区处理函数 KeyedProcessFunction 定时器与定时服务基于处理时间的分区处理函数基于事件时间的分区处
【Docker安装部署Kafka+Zookeeper详细教程】

Docker安装部署Kafka Zookeeper Docker拉取镜像 Docker拉取zookeeper的镜像 docker pull zookeeper Docker拉取kafka的镜像 docker pull wurstmeiste
大数据简介

预备篇目录知识大数据简介计算机单位大数据的五个 v Hadoop Hadoop概述 Hadoop的历史 Hadoop三大发行版本 1 Apache Hadoop 2 Cloudera Hadoop 3 Hortonworks Ha
大数据笔记--ELK（第一篇）

一 ELK介绍 1 什么是ELK ELK 是elastic公司提供的一套完整的日志收集以及展示的解决方案是三个产品的首字母缩写分别是ElasticSearch Logstash 和 Kibana 1 1 E ELASTICSEARCH
Flink_05_状态(个人总结)

声明 1 本文为我的个人复习总结并非那种从零基础开始普及知识内容详细全面言辞官方的文章 2 由于是个人总结所以用最精简的话语来写文章 3 若有错误不当之处请指出状态状态就是一块内存一个变量如果要访问历史窗口或批次的数据
华为云，站在数字化背后

一场新的中国数字化战斗正在被缓缓拉开帷幕作者裴一多出品产业家如果说最近的讨论热点是什么那无疑是互联网云在数字化进入纵深的当下一种市面上的观点是互联网的云业务由于盈利等问题正在成为被抛弃的一方互联网公司开始重新回归T
关于Yarn的一些个人总结

文章目录前言一 Yarn是什么二 Yarn由什么组成三 Yarn用来做什么四 Yarn的优势是什么五 Yarn解决了什么问题总结前言在前面我们可以得出Yarn是Hadoop生态圈中一个重要得组成部分主管资源管理但是具体
2021 CCF大数据与计算智能大赛个贷违约预测top 73 解决方案

目录一概述二解题过程 2 1 数据 2 2 构建基线 2 3 进阶思路一 2 4 进阶思路二 2 5 进阶思路三 2 6 融合 2 7 调优提分过程 2 8 其他工作三结语一概述这是我第二次参加大数据类型的竞赛也是第一次
计算机科学丛书(2014-2018.Q1)

ISBN 名称作者出版时间 978 7 111 53451 8 数学设计和计算机体系结构原书第2版美戴维莫尼哈里斯莎拉 L 哈里斯著 978 7 111 44075 8 嵌入式计算系统设计原理美 Marilyn Wolf著
kafka的新API 得到最新一条数据

业务的需要需要得到最新的一条消息从kafka中但是发现ConsumerRecords 这个对象并没有 get index 这种方式的获取并且只能 iterator 或者增强for 循环这种方式来循环记录但是有一个count 可以得到
MQ - KAFKA 高级篇

kafak是一个分布式流处理平台提供消息持久化基于发布订阅的方式的消息中间件同时通过消费端配置相同的groupId支持点对点通信适用场景构造实时流数据管道用于系统或应用之间可靠的消息传输数据采集及处理例如连接到一个数据库系
【ranger】CDP环境更新 ranger 权限策略会发生低概率丢失权限策略的解决方法

一问题描述我们的 kafka 服务在更新添加 ranger 权限时会有极低的概率导致 MM2 同步服务报错报错内容 Not Authorized 但是查看 ranger 权限是赋予的并且很早配置的权限策略也会报错相关组件版本
【flink番外篇】4、flink的sink（内置、mysql、kafka、redis、clickhouse、分布式缓存、广播变量）介绍及示例（8） - 完整版

Flink 系列文章一 Flink 专栏 Flink 专栏系统介绍某一知识点并辅以具体的示例进行说明 1 Flink 部署系列本部分介绍Flink的部署配置相关基础内容 2 Flink基础系列本部分介绍Flink 的基础部分比
从 MySQL 到 DolphinDB，Debezium + Kafka 数据同步实战

Debezium 是一个开源的分布式平台用于实时捕获和发布数据库更改事件它可以将关系型数据库如 MySQL PostgreSQL Oracle 等的变更事件转化为可观察的流数据以供其他应用程序实时消费和处理本文中我们将采用 De

随机推荐

JVM Mutex Monitor::lock

void Monitor lock Thread Self ifdef CHECK UNHANDLED OOPS Clear unhandled oops so we get a crash right away Only clear fo
Windows 下PBC库的安装和配置

背景 PBC库是一个基于双线性对的密码学库这库在公钥密码学中使用非常广泛这个库在Linux下的安装非常的简单有些只会纸上谈兵的人需要在WIN下做呵呵但是没办法需求到了硬着头皮也要写完对于一些只会谈兵的人呵呵现在主要介绍下
jar反编译的.java文件如何可以编辑_修改及反编译可运行Jar包实现过程详解

将可运行Jar包反编译成项目修改代码再次编译打包需要工具 jd gui myeclipse 具体步骤 1 使用jd gui打开原始的Jar包选择File gt Save All Sources 会生成一个zip压缩包 2 解压这
元素垂直居中的几种方式

第一种 div div div div boxOne width 200px height 200px background pink display flex justify content center align items cent
ps -aux

查看某个程序的进程号并删除 1 ps aux grep 进程 2 kill 9 进程号删除该进程
visual studio使用教程

linux疑难问题排查实战分享了作为公司专家在项目开发过程中内存优化堆栈代码段数据段性能优化死机栈越界堆越界死锁等疑难问题排查的案例使用的工具 perf asan strace memleak等工作经验大家可以点
blender界面基础认识

blender界面基础认识自定义功能 Edit gt Preference 界面主题视图灯光编辑动画插件输入视图切换键位映射系统保存加载文件路径 Blender界面分为以下三个部分上侧的顶栏中间的工作区底部
Sklearn专题二随机森林

专题二随机森林概述 1 集成算法 1 集成算法考虑多个评估器的结果汇总获取更好的分类回归表现 2 三种集成算法装袋法bagging 模型独立提升法boosting 模型相关 stacking 3 随机森林是一种bagging集成
.NET平台常用的开发组件

工欲善其事必先利其器其优雅的编程风格高效率的开发速度极度简单的可扩展性足够强大开发类库较小的学习曲线让我对这个平台产生了浓厚的兴趣在工作和学习中也积累了一些开源的组件虽然跟Java比Net还是要少但也足够使用了其中有一
【C#实现文字转语音功能】

本文实例为大家分享了C 实现文字转语音的具体代码供大家参考具体内容如下客户提出要求将文字内容转为语音因为内网环境没办法采用联网在线这种方式灵机一动能否写一个简单的例子呢搜索相关资料还真行话不多说有图有真相关键是 c
网传Spring爆出更大漏洞？别再炒作了…

之前刚刚过去的log4j2漏洞还历历在目这次来了个更大的云舒老大在29日发微博称出了个超级大漏洞有吃瓜群众就问这个瓜有 log4j2 那么好吃吗云舒大佬的回复是更大之后又有安全大佬sunwear给了一些更细节的信息所以漏
java中类可以包含哪些元素,Java类中包含的元素及作用

Java类是面试中常考的知识点是组成Java应用的基本成分小型和大型的应用都是由类组建而成的作为合格的Java工程师一定要清晰了解Java类及其包含的元素及作用今天学码思Java培训老师就Java类中包含的元素及作用做一个大致讲解
springSecurity跨域CORS处理

续言之前知识追寻者写过关于springboot 的跨域处理并且介绍了跨域相关的概念具体的可以查看这篇知识追寻者springboot教程系列文章 https zszxz com category springboot article
iOS“断点”(Break Point)你不知道多强大

iOS 断点 Break Point 你不知道多强大转载自http mp weixin qq com s biz MzA4ODk0NjY4NA mid 230272985 idx 1 sn 045c98bfb2d8dd1ecf7a7321
ssh配置config文件，实现vscode免密登陆

在使用ssh连接服务器时每一次用vscode连接服务器进行开发都需要输入密码相当鸡肋对config的配置能够实现解决这个问题 step1 生成ssh密钥如果已经有了就不需要了使用以下命令一路回车即可 ssh keygen t
触发connect超时事件

触发connect超时事件有关于如何触发connect超时事件之前相当然的认为在服务器程序accpet函数前阻塞一段事件就好了这个思路是完全错误的这是我犯了的一个错误没有严格的验证自己的程序就将其发布了出来被小组的小伙伴提问时才
shell编程基础: menu drvien script template（菜单脚本模板）

前言菜单类脚本其实就是我们经常使用的交互脚本在我们安装一个app的时候最常见我们需要使用交互脚本进行一些配置在工作中写一个交互性脚本也同样重要比如我现在需要写一个数据库授权的脚本上下文是这样的我们在开发中都是使用docke
LCD和LED屏幕的工作原理总结

1 点阵取模原理之横向取模与纵向取模 1 1 针式打印机针式打印机16针是纵向排列每次打印垂直的16bit 然后右移一bit 继续下列打印字节的MSB表示最上面的点字节LSB表示最下面的点由于汉字字模的点阵是横向排列的而提供给打
实现单层神经网络

在前面我们分别使用逻辑回归和 softmax 回归实现了对鸢尾花数据集的分类逻辑回归能够实现线性二分类的任务他其实就是最简单的神经网络感知机而softmax回归则实现的是多分类任务它也可以看做是输出层有多个神经元的单层神经网络
Flink之IntervalJoin介绍

InterValJoin算子间隔流一条流去join另一条流去过去一段时间内的数据该算子将keyedStream与keyedStream转化为DataStream 再给定的时间边界内默认包含边界相当于一个窗口按指定的key对俩个K

Flink之IntervalJoin介绍

Flink之IntervalJoin介绍 的相关文章

随机推荐

热门标签

Flink之IntervalJoin介绍的相关文章