Kafka拉取某一个时间段內的消息

2023-11-10

一般来说我们都使用Kafka来记录用户的操作记录以便后续分析。
但是通常使用的时候需要按天来统计每天的去重用户数、点击量之类的。
这个时候如果直接拉某个topic的数据的话，就需要判断每个消息的时间戳，还要兼顾把所有的Partition都拉完才能保证数据的完整。
因此如果能只拉取某一个时间段内的消息，就能极大的简化后续的处理逻辑。

拉取时段内消息实现

为了实现这个目的借助于根据时间戳获取Partition内部偏移的方法，获取两个时间点在Partition内部的偏移，然后从第一个时间点的偏移开始拉取指定Partition的消息，当偏移超过第二个时间点的偏移的时候取消订阅。逐个partition操作拉全topic所有的数据。

实验例子，python+confluence kafka
具体代码如下：

#coding=utf8

from confluent_kafka import Consumer, KafkaError, TopicPartition, Message
import datetime

conf = {
  'bootstrap.servers': 'xxx',
  'group.id': 'xxx',
  'session.timeout.ms': 6000,
  'security.protocol': 'SASL_PLAINTEXT',
  'sasl.mechanism' : 'PLAIN',
  'sasl.username': 'xxx',
  'sasl.password': 'xxx',
  'auto.offset.reset': 'earliest'
}

topic = 'topic'

consumer = Consumer(conf)

# 拉取昨天一天的数据，start_time、end_time这两个时间可以随便设置
now = datetime.datetime.now() - datetime.timedelta(days=1)
start_time = datetime.datetime.strptime(now.strftime('%Y-%m-%d 00:00:00'),'%Y-%m-%d %H:%M:%S')
end_time = datetime.datetime.strptime(now.strftime('%Y-%m-%d 23:59:59'),'%Y-%m-%d %H:%M:%S')

# 5 是partition的数量
for index in range(5):
  # 查询开始时间的针对于某个partition的偏移
  start_tps = [TopicPartition(topic, index, int(start_time.timestamp() * 1000))]
  start_offset = consumer.offsets_for_times(start_tps)
  # 查询结束时间的针对于某个partition的偏移
  end_tps = [TopicPartition(topic, index, int(end_time.timestamp() * 1000))]
  end_offset = consumer.offsets_for_times(end_tps)
  # 从拉取指定partition的offset开始拉取数据
  consumer.assign(start_offset)

  while True:
    try:
      msg = consumer.poll(1.0)
      if msg == None:
        break

      offset = msg.offset()
      if offset > end_offset[0].offset:
        # 如果超过当前partition的偏移之后不再继续订阅当前的topic
        consumer.unassign()
        break

      pass
    except:
      pass

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Kafka拉取某一个时间段內的消息的相关文章

我如何在 python 2.6 中测试抽象方法

我有一个抽象类 import abc class Hello object metaclass abc ABCMeta abc abstractmethod def add self foo pass abc abstractmethod
如何在 Windows 10 上使用 python 3.7 的 anaconda 包？

我使用的是 Windows 10 Pro 64 位版本我从此页面下载Anaconda3 2019 03 Windows x86 64 exe https www anaconda com distribution https www an
Pandas 字符串提取所有匹配项

我正在学习 pandas 系列字符串方法中的正则表达式操作我能够从字符串中提取第一个数字但我的正则表达式与第二个数字不匹配如何捕获这两个数字注意第二行第二个元素在这里是 NAN CODE import pandas as pd d
如何测试使用 XCom 的 Apache Airflow 任务

我正在尝试找出一种测试 DAG 的方法其中有几个任务使用 XCom 进行通信由于控制台命令只允许我从 DAG 运行任务有没有一种方法可以测试通信而无需通过 UI 运行 DAG Thanks 这是一种对我有用的方法尽管 Airflow
Python 按照层次结构按多个分隔符分割字符串

我只想根据多个分隔符例如 and 和按顺序分割字符串一次例子 121 34 adsfd gt 121 34 adsfd dsfsd and adfd gt dsfsd adfd dsfsd adfd gt dsfsd adfd dsf
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
Seaborn 热图中的自定义调色板间隔

我正在尝试绘制一个heatmap https seaborn pydata org generated seaborn heatmap html使用seaborn库绘图函数如下所示 def plot confusion matrix da
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
使 np.loadtxt 使用多个可能的分隔符

我有一个程序可以读取数据文件用户可以选择他们想要使用的列我希望它对于输入文件更加通用有时列可能如下所示 10 34 24 58 8 284 6 121 有时它们可能看起来像这样 10 34 24 58 8 284 6 121 我希
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
VSCode无法切换matplotlib后端：ImportError：无法加载需要“qt5”交互框架的后端“Qt5Agg”

我只想通过在 VSCode 中运行 Python 来进行绘图但结果失败了我无法将后端从 agg 切换到 Qt5Agg 但是我可以在 VSCode 的终端中轻松执行此操作 VSCode集成终端中的问题如下所示我尝试了各种解决方案但失败
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中

随机推荐

Qt之美（一）：D指针/私有实现

The English version is available at http xizhizhu blogspot com 2010 11 beauty of qt 1 d pointer private html 相信不少刚开始阅读Qt
性能测试持续集成 CICD:JMeter+Jenkins+Ant+jmx

Java JDK C Users Tommy gt java version java version 1 8 0 341 Java TM SE Runtime Environment build 1 8 0 341 b10 Java Ho
Ps如何制作动态图片

制作动态图片按操作慢慢来下面是我们要使用的图片 0 首先我们新建文件宽 500px 高 500px 1 之后我们简单的设计一下画面美观一下需要用的字也先一下我的比较丑 2 之后重点来了重点来了重点来了从菜单工具 gt 窗口
大数据：频繁项集

大数据频繁项集下面是我下面是阅读大数据互联网大规模数据挖掘与分布式处理一书第六章笔记详细请见该书所述 1 购物篮数据项与购物篮多对多的关系项存放于购物篮
Book I-IV of Power

复杂度1 5 机密度3 5 最后更新2021 04 24 任何CPU都有自己的及相关的规范这些规范用来协调跨公司的软硬件开发者使用者共同建设围绕该CPU的软硬件生态体系 Power CPU是IBM所有CPU最终集大成者从最早的RIS
线性代数(4)——特征值与二次型
Realtime_Multi-Person_Pose_Estimation训练问题

https blog csdn net kkae8643150 article details 102711101 前言最近在研究Realtime Multi Person Pose Estimation的训练和再训练的过程参考 htt
element -ui table表格内容无限滚动使用插件vue-seamless-scroll

使用插件一安装组件依赖 npm install vue seamless scroll 二引入组件 import vueSeamlessScroll from vue seamless scroll components vueSea
csdn积分获取攻略

下载积分攻略 1 个人设置里进行手机绑定CSDN账户奖励50分右上角设置账户安全手机绑定 2 完成任务送若干分积分 http task csdn net 3 上传有效资源获取积分上传非法广告资源用户将被扣除一定积分严重者封号
matplotlib 画图总结

1 图片基本设置 import matplotlib pyplot as plt 图片尺寸 plt figure width height 方式1 plt rcParams figure figuresize width height 方式
导入spacy时报错OSError: [E050] Can‘t find model ‘en‘. It doesn‘t seem to be a shortcut link,

报错如下 File home muli local lib python3 6 site packages spacy util py line 175 in load model raise IOError Errors E050 for
element-UI使用el-select做字典映射时label值不显示问题

问题描述在使用elementUI的el select组件时做了字典影射但是在选择option选项后选择框内并没有选中的值出现这是通过调试发现被绑定的值已经改变进行别的操作更新完dom后发现选项更新操作点击选择test选项此处是
简单了解YOLOv8

简单介绍YOLOv8 这里主要关注模型的backbone和后处理的过程并通过对比YOLOv5的架构来更深入的了解YOLOv8 模型框架 YOLOv5中的C3替换为更精简的C2f 即增加了更多的跳跃连接和split操作 Backbone 中
uniapp 自定义标题情况下，让标题和右侧胶囊对齐

实现效果无论手机类型怎么切换自定义标题始终跟胶囊平齐实现在pages json文件中配置标题自定义在index vue页面编写自定义的标题内容在onLoad里可以计算高度
【深度学习】入门理解ResNet和他的小姨子们（三）---ResNeXt

文章名称 Aggregated Residual Transformations for Deep Neural Networks 文章链接 https arxiv org abs 1611 05431 其实ResNeXt这个网络结构严格说
大规模流量下的云边端一体化流量调度体系

火山引擎是字节跳动旗下的云服务平台将字节跳动快速发展过程中积累的增长方法技术能力和工具开放给外部企业提供云基础视频与内容分发数智平台VeDI 人工智能开发与运维等服务帮助企业在数字化升级中实现持续增长 LiveVideoSta
构建领域驱动的Java应用

引言在现代软件开发中设计和构建复杂的应用程序是一项充满挑战的任务为了更好地满足业务需求和提供可维护的代码软件开发者需要采用一些强大的工具和技术领域驱动设计 Domain Driven Design 简称DDD 是一种优秀的方法它
Codeforces 1210 D Konrad and Company Evaluation —— 暴力

This way 题意现在有n个人第i个人的工资一开始是i 现在有一些人相互讨厌然后如果第x个人和第y个人相互讨厌并且x的工资比y高那么x就会向y炫耀 x y z这三个人的组合是危险的当x会向y炫耀 y会向z炫耀每次修改一个人
用户消费行为分析

消费品用户行为分析根据CDNOW的一段用户订单数据进行消费行为分析 CDNow是一家在线音乐零售平台后被德国波泰尔斯曼娱乐集团公司出资收购其资产总价值在最辉煌时曾超过10亿美元下面主要通过分析CDNow网站的用户购买明细来分析该网站
Kafka拉取某一个时间段內的消息

一般来说我们都使用Kafka来记录用户的操作记录以便后续分析但是通常使用的时候需要按天来统计每天的去重用户数点击量之类的这个时候如果直接拉某个topic的数据的话就需要判断每个消息的时间戳还要兼顾把所有的Partition都拉完才

Kafka拉取某一个时间段內的消息

拉取时段内消息实现

Kafka拉取某一个时间段內的消息 的相关文章

随机推荐

热门标签

Kafka拉取某一个时间段內的消息的相关文章