Kafka练习

2023-11-11

需求：写一个生产者，不断的去生产用户行为数据，写入到kafka的一个topic中

生产的数据格式：造数据

{"guid":1,"eventId":"pageview","timestamp":1637868346789} isNew = 1

{"guid":1,"eventId":"addcard","timestamp":1637868347625} isNew = 0

{"guid":2,"eventId":"collect","timestamp":16378683463219}

{"guid":3,"eventId":"paid","timestamp":16378683467829}

......

再写一个消费者，不断的从kafka中消费上面的用户行为数据，做一个统计

1.每5s输出一次当前来了多少用户(去重) uv

2.将每条数据添加一个字段来标识，如果这个用户的id是第一次出现，那么就标注1，否则就是0

生产者代码示例：

package com.doit.kafaka;

import com.alibaba.fastjson.JSON;
import org.apache.commons.lang3.RandomStringUtils;
import org.apache.commons.lang3.RandomUtils;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.common.serialization.StringSerializer;

import java.util.Properties;

//需求：写一个生产者，不断的去生产用户行为数据，写入到kafka的一个topic中  ==>先造一部分数据，然后不断的往kafka中写数据(生产者)
//        * 生产的数据格式：  造数据
//        * {"guid":1,"eventId":"pageview","timestamp":1637868346789}  isNew = 1  ==》 fastjson  ==》javabean 创建对象  格式化成json串
//        * {"guid":1,"eventId":"addcard","timestamp":1637868347625}   isNew = 0
//        * {"guid":2,"eventId":"collect","timestamp":16378683463219}
//        * {"guid":3,"eventId":"paid","timestamp":16378683467829}
//        * ......
//        * 再写一个消费者，不断的从kafka中消费上面的用户行为数据，做一个统计  ==》poll for(具体的逻辑)
//        * 1.每5s输出一次当前来了多少用户(去重)  uv   每5s输出一次==》 任务调度器 Timer
//        * 2.将每条数据添加一个字段来标识，如果这个用户的id是第一次出现，那么就标注1，否则就是0  ==》 判断这个数之前有没有出现过
//        */
public class _Producer_uv {
    public static void main(String[] args) throws InterruptedException {
        Properties props = new Properties();
        props.setProperty(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"linux01:9092,linux02:9092,linux03:9092");
        props.setProperty(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        props.setProperty(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,StringSerializer.class.getName());
        props.setProperty("value.serializer",StringSerializer.class.getName());

        KafkaProducer<String,String> producer = new KafkaProducer<>(props);
        EventLog eventLog = new EventLog();

        while(true){
            eventLog.setEventId(RandomStringUtils.randomAlphabetic(10));
            eventLog.setGuid(RandomUtils.nextInt(10000,100000));
            eventLog.setTimestamp(System.currentTimeMillis());
            String jsonString = JSON.toJSONString(eventLog);
            ProducerRecord<String,String> record = new ProducerRecord<>("event-log",jsonString);
            producer.send(record);
            producer.flush();
            Thread.sleep(RandomUtils.nextInt(10,200));

        }
    }
}

消费者代码示例: 用hashset来实现：

package com.doit.kafaka;

import com.alibaba.fastjson.JSON;
import com.doit.demo.Consumer;
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;
import org.apache.kafka.common.serialization.StringSerializer;

import java.time.Duration;
import java.util.*;

//再写一个消费者，不断的从kafka中消费上面的用户行为数据，做一个统计  ==》poll for(具体的逻辑)
//        * 1.每5s输出一次当前来了多少用户(去重)  uv   每5s输出一次==》 任务调度器 Timer
//        * 2.将每条数据添加一个字段来标识，如果这个用户的id是第一次出现，那么就标注1，否则就是0  ==》 判断这个数之前有没有出现过
public class _Consumer_uv {
    public static void main(String[] args) {
      HashSet<Integer> set = new HashSet<>();
      new Thread(new SetTask(set)).start();

        Timer timer = new Timer();
        timer.schedule(new TimerTask() {
            @Override
            public void run() {
                System.out.println("截止到现在的uv数:"+set.size()+",当前时间是："+System.currentTimeMillis());

            }
        },1000,5000);
    }
}
class SetTask implements Runnable{
private HashSet<Integer> set;
private KafkaConsumer<String,String> consumer;

    public SetTask(HashSet<Integer> set) {

        Properties props = new Properties();
        props.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,"linux01:9092");
        props.setProperty(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.setProperty(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG,StringDeserializer.class.getName());
        props.setProperty(ConsumerConfig.GROUP_ID_CONFIG,"group02");
        props.setProperty(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"earliest");
        props.setProperty(ConsumerConfig.ALLOW_AUTO_CREATE_TOPICS_CONFIG,"true");
        props.setProperty(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG,"false");
        props.setProperty(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG,"10000");

        consumer = new KafkaConsumer<String,String>(props);
        this.set = set;
    }

    @Override
    public void run() {

        consumer.subscribe(Arrays.asList("event-log"));
        while (true){
            ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(Integer.MAX_VALUE));
            for (ConsumerRecord<String, String> record : records) {
                String value = record.value();
                EventLog eventLog = JSON.parseObject(value, EventLog.class);
                int guid = eventLog.getGuid();
                set.add(guid);
            }
        }

    }
}

用hashset来实现很显然会出问题，如果数据量一直往上增长，会出现oom的问题，而且占用资源越来越多，影响电脑性能！！！

方案二：将HashSet改成bitMap来计数，就很完美，大逻辑不变，小逻辑就是将HashMap改成bitMap

package com.doit.kafaka;

import com.alibaba.fastjson.JSON;
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;
import org.roaringbitmap.RoaringBitmap;

import java.time.Duration;
import java.util.*;

//再写一个消费者，不断的从kafka中消费上面的用户行为数据，做一个统计  ==》poll for(具体的逻辑)
//        * 1.每5s输出一次当前来了多少用户(去重)  uv   每5s输出一次==》 任务调度器 Timer
//        * 2.将每条数据添加一个字段来标识，如果这个用户的id是第一次出现，那么就标注1，否则就是0  ==》 判断这个数之前有没有出现过
public class _Consumer_uv2 {

    public static void main(String[] args) {
//      HashSet<Integer> set = new HashSet<>();
        RoaringBitmap bitmap = new RoaringBitmap();
      new Thread(new BitMapTask(bitmap)).start();

        Timer timer = new Timer();
        timer.schedule(new TimerTask() {
            @Override
            public void run() {
                System.out.println("截止到现在的uv数:"+bitmap.getCardinality()+",当前时间是："+System.currentTimeMillis());

            }
        },1000,5000);
    }
}
class BitMapTask implements Runnable{
private RoaringBitmap bitmap;
private KafkaConsumer<String,String> consumer;

    public BitMapTask(RoaringBitmap bitmap) {

        Properties props = new Properties();
        props.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,"linux01:9092");
        props.setProperty(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.setProperty(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG,StringDeserializer.class.getName());
        props.setProperty(ConsumerConfig.GROUP_ID_CONFIG,"group02");
        props.setProperty(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"earliest");
        props.setProperty(ConsumerConfig.ALLOW_AUTO_CREATE_TOPICS_CONFIG,"true");
        props.setProperty(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG,"false");
        props.setProperty(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG,"10000");

        consumer = new KafkaConsumer<String,String>(props);
        this.bitmap = bitmap;
    }

    @Override
    public void run() {

        consumer.subscribe(Arrays.asList("event-log"));
        while (true){
            ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(Integer.MAX_VALUE));
            for (ConsumerRecord<String, String> record : records) {
                String value = record.value();
                EventLog eventLog = JSON.parseObject(value, EventLog.class);
                int guid = eventLog.getGuid();
                bitmap.add(guid);
            }
        }

    }
}

需求二：判断来没来过的问题，可以用bitmap来搞，当然还可以用布隆过滤器来搞

package com.doit.kafaka;

import com.alibaba.fastjson.JSON;
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;
import org.checkerframework.checker.nullness.qual.Nullable;
import redis.clients.jedis.Jedis;

import java.time.Duration;
import java.util.Arrays;
import java.util.Properties;
import java.util.Timer;
import java.util.TimerTask;

//再写一个消费者，不断的从kafka中消费上面的用户行为数据，做一个统计  ==》poll for(具体的逻辑)
//        * 1.每5s输出一次当前来了多少用户(去重)  uv   每5s输出一次==》 任务调度器 Timer
//        * 2.将每条数据添加一个字段来标识，如果这个用户的id是第一次出现，那么就标注1，否则就是0  ==》 判断这个数之前有没有出现过
public class _Consumer_uv4 {
    public static void main(String[] args) {
        BloomFilter<Long> bloom = BloomFilter.create(Funnels.longFunnel(), 1000000);
        Properties props = new Properties();
        props.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,"linux01:9092");
        props.setProperty(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.setProperty(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG,StringDeserializer.class.getName());
        props.setProperty(ConsumerConfig.GROUP_ID_CONFIG,"group02");
        props.setProperty(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"earliest");
        props.setProperty(ConsumerConfig.ALLOW_AUTO_CREATE_TOPICS_CONFIG,"true");
        props.setProperty(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG,"false");
        props.setProperty(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG,"10000");

        KafkaConsumer<String,String>  consumer = new KafkaConsumer<String,String>(props);
        consumer.subscribe(Arrays.asList("event-log"));
        while (true){
            ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(Integer.MAX_VALUE));
            for (ConsumerRecord<String, String> record : records) {
                String value = record.value();
                EventLog eventLog = JSON.parseObject(value, EventLog.class);
                boolean flag = bloom.mightContain((long) eventLog.getGuid());
                if (!flag){
                    eventLog.setIsNew(1);
                    bloom.put((long) eventLog.getGuid());
                }else {
                    eventLog.setIsNew(0);
                }
                System.out.println(JSON.toJSONString(eventLog));


            }
        }
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

kafka

Java

分布式

Kafka练习的相关文章

Java 9 中 java.se 模块的意义是什么？

为什么 java 9 模块系统有 java se 模块它对其他模块具有传递依赖关系这与 Java 9 之前的世界中依赖整个 rt jar 不一样吗 module java se requires transitive java desk
如何生成源代码来创建我正在调试的对象？

我的典型场景我处理的遗留代码有一个错误只有生产中的客户端才会遇到我附加了一个调试器并找出如何重现该问题their系统给定their输入但是我还不知道为什么会发生错误现在我想在本地系统上编写一个自动化测试来尝试重现然后修复错误最
在这种情况下，我如何处理 Function 和省略号/可变参数？

我的项目之一是抛出 lambda 表达式 https github com fge throwing lambdas 我的目标是简化潜在的使用 FunctionalInterfaces in Streams 其在流中使用的唯一缺陷是它们
Java中单击和双击的区别

我搜索论坛并看到以下代码 public void mouseClicked MouseEvent e if e getClickCount 2 System out println and it s a double click wasDo
多个罐子、单个持久单元解决方案？

包括我在内的一些人一直在努力将不同模块 jar 中的实体合并到单个持久性单元中尤其是JavaSE 例如这里JPA 2 0 自动从不同的 jar 添加实体类到 PersistenceUnit https stackoverflow com
Android 上 WebRTC 的自定义视频源

Overview 我想使用自定义视频源通过 WebRTC Android 实现来直播视频如果我理解正确的话现有的实现仅支持 Android 手机上的前置和后置摄像头以下类与此场景相关 Camera1Enumerator java ht
由于 maven-surefire-plugin，Maven 构建失败

我这里有类似的问题eclipse 中缺少 maven surefire plugin https stackoverflow com questions 23588957 maven surefire plugin missing in e
传输级别信息与 SOAP 消息命名空间 URI 不匹配

我收到错误 Transport level information does not match with SOAP Message namespace URI 要求您提供详细信息以解决问题我在客户端设置了以下内容 HttpTranspo
如何在android中播放内部和外部SD卡中的mp3文件？

我正在开发一个 mp3 播放器应用程序它可以播放内部 SD 卡内任何位置的 mp3 文件我使用以下代码来获取内部存储中存在的 mp3 文件 ArrayList
Hibernate - 如何通过 Hibernate 将 java.net.URL 存储到数据库中

我有一块田地URL countryURL in a Country班级我想将其数据存储到COUNTRY通过 Hibernate 将表存储在数据库中哪个休眠type我应该在休眠映射文件中使用
尝试模拟静态时出现 NoClassDefFoundError 或 NoSuchMethodError （不兼容的依赖项）

When a class with static method is mocked an exception been thrown The version 2 0 0 of PowerMock displays NoClassDefFou
部署到 Glassfish 4.1 时 URL 模式无效

如果用户已经通过身份验证我有一个网络过滤器可以从登录和索引页面重定向最初我有一个无效的 URL 模式我修复了无效模式并尝试重新部署以接收以下内容 java lang IllegalArgumentException Invalid U
JPA中如何连接多个数据库？

我有一个 Spring Boot 应用程序当前使用 JPA 连接到单个数据库 application properties 文件中的连接详细信息 spring datasource url jdbc oracle thin localho
需要使用自定义类而不是在 Web 服务中生成（通过 wsimport）

您能帮忙解决以下问题吗当生成 WS 客户端代码使用 wsimport ant 任务时所有类都会在与 Web 服务相同的包例如 helloservice endpoint 中自动生成例如如果我的网络服务有方法公共节点 getNo
异步方法的同步版本

在 Java 中创建异步方法的同步版本的最佳方法是什么假设您有一个包含这两种方法的类 asyncDoSomething Starts an asynchronous task onFinishDoSomething Called when
运行外部进程的非阻塞线程

我创建了一个 Java GUI 应用程序它充当许多低级外部进程的包装器该实用程序按原样运行但迫切需要一项重大改进我希望我的外部进程以非阻塞方式运行这将允许我并行服务其他请求简而言之我希望能够在生成数据时处理来自外部进程的数据
返回在 REST 控制器中包装 S3Object.getObjectContent() 的 ResponseEntity 是否安全？

我正在开发一个 Spring Boot 应用程序它应该允许用户通过指定的应用程序 REST 接口间接从 Amazon S3 下载文件为此我有一个 REST Controller 它向用户返回一个 InputStreamResource
Spring Boot 和安全性以及自定义 AngularJS 登录页面

我正在为 Spring Security 实现一个自定义 AngularJS 登录页面但遇到身份验证问题遵循本教程示例以及他们的示例在本地运行良好 https github com dsyer spring security ang
指定不带组件的GridBagLayout的网格参数

我试图帮助另一个用户但遇到了一个问题我想用 GridBagLayout 来做到这一点 c1 c2 c3 10 80 10 v v r1 B1
Spring Data JPA 存储库，具有规范、分页和标准 fetch-join

我正在使用具有规范和分页功能的 Spring Data JPA 存储库实现实体列表的搜索过滤服务我正在尝试减少查询数量 n 1 问题并使用条件获取机制获取嵌套数据我有两个实体类 Entity Table name delegatio

随机推荐

pytorch测试模型时根据不同列别的概率值得到具体的分类

pytorch 分类任务的教程 https pytorch org tutorials beginner blitz cifar10 tutorial html 主要使用的是 predict torch max out data 1 最后的
best ajax lib,BEST Currency Converter

想提升客户的购物体验以当地货币显示价格可以省去他们很多不必要的时间也能提升客户与平台的粘度该插件具备如下优势 1 轻松添加多种货币按下按钮即可添加160多种货币像专业人士一样开始国际销售并鼓励客户购买 2 自动转换价格价格会根
node.js 读取文件的时候 cmd执行脚本，中文（汉字）打印不出来

node js 读取文件的时候 cmd执行脚本中文汉字打印不出来文本详情输出结果问题原因 txt编码格式不是UTF 8 解决办法打开TXT文件点击文件 gt 另存为 gt 编码改为UTF 8 保存替换问题解决
【大数据】Flink 详解（五）：核心篇 Ⅳ

本系列包含大数据 Flink 详解一基础篇大数据 Flink 详解二核心篇大数据 Flink 详解三核心篇大数据 Flink 详解四核心篇大数据 Flink 详解五核心篇大数据 Flink 详解六源码篇
通俗易懂的教你编写自己的webpack loader与plugin

前言 webpack几乎是目前前端开发者无人不知的打包框架毕竟无论使用什么开发库都会想到要使用webpack打包包括各种脚手架cli工具大部分也采用了webpack作为其打包工具本文试图用最简单的代码仅仅使用命令行工具代码足够
spring data jpa使用limit时，抛QuerySyntaxException unexpected token: limit

异常重现 jpql语句如下 select g from Entity g where g codeUrl codeUrl ORDER BY g createTime DESC limit 1异常原因 limit是特定于某些数据库例如 my
IDEA设置为中文

按照如下步骤操作即可下载对应的语言包中文语言包下载地址注意此处下载的版本只能是IDEA版本之前的语言包下载之后的会报错将下载好的jar包放在IDEA目录下的lib目录下点击File Settings 点击Plugins 然后点
matlab相关性分析（皮尔逊，肯德尔，斯皮尔曼）

代码 clc clear load CRO C3 mat data GPP DT VUT REF EVI NDVI NIRv kNDVI LSWI FPAR TA F VPD F SW IN F rho corr data type pea
LeetCode题目笔记——1658. 将 x 减到 0 的最小操作数

文章目录题目描述题目难度中等方法一反向思考双指针求最长子数组代码 Python 代码 C 方法二滑动窗口代码总结我把这篇也归到面试题那一栏因为觉得这题的思路和思考方式还挺好的或许能用到其他题上题目描述给你一个整
[创业之路-74] - 感悟 - 创业是所有因素的机缘组合，缺一不可；舰船思维 VS 城堡思维.

感悟方向趋势路径资助船只船长大副水手船员装备配套路径一个都不能少只看对方向与趋势一样葬身在趋势的洪流中看不对方向与趋势亦会老死在寂寞孤冷之中在所有因素中船只装配配套是最表象和最容易触发感官体验的目
服务器与虚拟技术,云服务器与虚拟化服务器的区别

虚拟化服务器是让一台服务器变成几台甚至上百台相互隔离的虚拟服务器不再受限于物理上的界限而是让CPU 内存磁盘 I O等硬件变成可以动态管理的资源池从而提高资源的利用率简化系统管理服务器虚拟化的种类主要有一虚多多虚一和
c++ 之 shared_ptr

shared ptr shared ptr 是一种智能指针 smart pointer 作用有如同指针但会记录有多少个 shared ptrs 共同指向一个对象这便是所谓的引用计数 reference counting 一旦最后一个这样
oracle字符串生成唯一数字,在C#中生成唯一的字符串和数字【GUID】转

当我们想要获得一个唯一的key的时候通常会想到GUID 这个key非常的长虽然我们在很多情况下这并不是个问题但是当我们需要将这个36个字符的字符串放在URL中时会使的URL非常的丑陋想要缩短GUID的长度而不牺牲它的唯一性是不可能
Spark常见错误剖析与应对策略

问题一日志中出现 org apache spark shuffle MetadataFetchFailedException Missing an output location for shuffle 0 原因分析 shuffle分为s
第2章 PyTorch基础（1/2）

第2章 PyTorch基础 PyTorch是Facebook团队于2017年1月发布的一个深度学习框架虽然晚于TensorFlow Keras等框架但自发布之日起其关注度就在不断上升目前在GitHub上的热度已超过Theano Ca
iterator 怎么使用甀_Iterator的理解和使用

es6成员之一的Iterator 遍历器 Iterator 它是一种接口为各种不同的数据结构提供统一的访问机制任何数据结构只要部署Iterator接口就可以完成遍历操作即依次处理该数据结构的所有成员 Iterator 的作用有三个
记一次edusrc的漏洞挖掘

一前言在fofa上闲逛的时候发现这个系统其实之前也碰到过这个系统当时可能觉得没什么漏洞点就没有管正好闲着没事又碰到了这个系统然后就拿过来简单的测试了一下二漏洞挖掘 1 信息收集由于我是在fofa上发现的这个系统所以也谈不
软件系统设计-15-架构设计

1 设计架构 Design Architecture 1 1 设计策略 Design Strategies Abstraction Generate Test Decomposition Reusable Elements Iteratio
python(数据分析)第5天：图例

图例 plt legend import matplotlib pyplot as plt import random import matplotlib from matplotlib import cycler from matplot
Kafka练习

需求写一个生产者不断的去生产用户行为数据写入到kafka的一个topic中生产的数据格式造数据 guid 1 eventId pageview timestamp 1637868346789 isNew 1 guid 1 even

Kafka练习

Kafka练习 的相关文章

随机推荐

热门标签

Kafka练习的相关文章