将文件分区为日期从 kafka 写入 hdfs 的最有效方法是什么

2023-11-22

我正在开发一个应该通过 kafka 写入 hdfs 的项目。假设有一个在线服务器将消息写入kafka。每条消息中都包含时间戳。我想创建一个作业，其输出将是根据消息中的时间戳的一个或多个文件。例如如果kafka中的数据是

 {"ts":"01-07-2013 15:25:35.994", "data": ...}
 ...    
 {"ts":"01-07-2013 16:25:35.994", "data": ...}
 ... 
 {"ts":"01-07-2013 17:25:35.994", "data": ...}

我想得到 3 个文件作为输出

  kafka_file_2013-07-01_15.json
  kafka_file_2013-07-01_16.json
  kafka_file_2013-07-01_17.json

当然，如果我再次运行该作业并且队列中有新消息，例如

 {"ts":"01-07-2013 17:25:35.994", "data": ...}

它应该创建一个文件

  kafka_file_2013-07-01_17_2.json // second  chunk of hour 17

我见过一些开源代码，但大多数都是从 kafka 读取到某些 hdfs 文件夹。这个问题的最佳解决方案/设计/开源是什么

你绝对应该检查一下Camus API来自 linkedIn 的实现。 Camus 是 LinkedIn 的 Kafka->HDFS 管道。它是一个 MapReduce 作业，可以从 Kafka 中加载分布式数据。看看这个post我写了一个简单的例子，它从 Twitter 流中获取并根据推文时间戳写入 HDFS。

项目可在 github 上获取 -https://github.com/linkedin/camus

Camus 需要两个主要组件来从 Kafka 读取和解码数据以及将数据写入 HDFS –

解码从 Kafka 读取的消息

Camus 有一组解码器，有助于解码来自 Kafka 的消息，解码器基本上扩展了com.linkedin.camus.coders.MessageDecoder它实现了基于时间戳的数据分区逻辑。该目录中存在一组预定义的解码器，您可以根据这些解码器编写自己的解码器。camus/camus-kafka-coders/src/main/java/com/linkedin/camus/etl/kafka/coders/

将消息写入 HDFS

Camus 需要一组 RecordWriterProvider 类，它扩展了com.linkedin.camus.etl.RecordWriterProvider这将告诉 Camus 应写入 HDFS 的有效负载是什么。此目录中存在一组预定义的 RecordWriterProvider，您可以根据这些编写自己的。

camus-etl-kafka/src/main/java/com/linkedin/camus/etl/kafka/common

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

HDFS

ApacheKafka

将文件分区为日期从 kafka 写入 hdfs 的最有效方法是什么的相关文章

获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
MapReduce 中 1 个任务的减速器数量

在典型的 MapReduce 设置如 Hadoop 中 1 个任务使用多少个减速器例如计算单词数我对 Google MapReduce 的理解意味着只涉及 1 个减速器那是对的吗例如单词计数会将输入分为 N 个块并且 N 个
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要
Hadoop 减速器数量配置选项优先级

以下3个设置reduce数量的选项的优先级是什么换句话说如果三者都设置了会考虑哪一个呢 Option1 setNumReduceTasks 2 within the application code Option2 D mapredu
“错误：无法找到或加载主类 org.apache.hadoop.util.RunJar”是什么意思？

我正在尝试运行一个示例因为它指出 Hadoop 实践一书 http www manning com lam 第 15 页这是需要运行的命令 bin hadoop jar hadoop examples jar 但我收到这个错误 Err
无法使用 jolokia 从 Kafka 提取 JMX 数据

我已经在 centos 7 机器上安装了 Jolokia 并尝试使用 Jolokia 代理提取 Kafka 指标并使用 Nagios 插件 check jmx4perl 与 Icinga 监控工具集成以下是我遵循的配置步骤步骤1 下载
如何删除 Apache Kafka 中的多个主题

假设我有许多具有相同前缀的主题例如 giorgos topic1 giorgos topic2 giorgos topic3 用于删除单个主题的命令例如giorgos topic1 如下 bin kafka topics sh zook
缺少依赖项 hive-builtins 会导致 Oozie 构建失败，错误代码为 410

我尝试从源代码构建 oozie 但安装失败我想安装 oozie 并热切地等待使用它我在这个阶段失败了当我从 oozie 3 3 3 目录给出 cmd 时 bin mkdistro sh DskipTests 我收到这个错误 INFO
如何配置Hive仓库路径？

我修改了这部分
Kafka 0.11 如何重置偏移量

我正在尝试使用 Kafka 的最新 CLI 工具重置消费者偏移量 kafka consumer groups bat bootstrap server kafka host 9092 group my group reset offsets
线程“StreamThread-1”org.apache.kafka.streams.errors.StreamsException 中出现异常：无法重新平衡

我创建了一个主题并放置了一个简单的生产者来在该主题中发布一些消息 bin kafka topics sh create zookeeper localhost 2181 replication factor 1 partitions 1
重载方法值与替代方法的聚合

我有以下函数但无法编译 private def save pea KStream String String Unit pea groupByKey aggregate gt folder String String value Stri
名称节点与辅助名称节点

Hadoop 具有一致性和分区容忍性即它属于 CAP 理论的 CP 类别 Hadoop不可用因为所有节点都依赖于名称节点如果名称节点崩溃集群就会崩溃但考虑到 HDFS 集群有一个辅助名称节点为什么我们不能称 hadoop 为可用
HDFS：使用 HDFS API 附加到 SequenceFile

我一直在尝试使用 Java API 在 HDFS 上创建和维护序列文件而不运行 MapReduce 作业作为设置用于未来的 MapReduce 工作我想将 MapReduce 作业的所有输入数据存储在单个序列文件中但数据会随着时间的推
KafkaStreams 不生成发送到目标主题的消息

我一直在尝试使用 KafkaStreams 来计算传感器读取的温度的移动平均值我有 Producer 它从 mqtt 代理获取消息并将它们推送到 kafka String topic TEMPERATURE Producer
为什么 kafka 生产者在初始化时采用代理端点而不是 zk

如果我有多个经纪人我的制作人应该使用哪个经纪人我需要手动切换broker来平衡负载吗另外为什么消费者只需要 Zookeeper 端点而不是 Broker 端点教程中的快速示例 gt bin kafka console produc
kafka主题分区的最大复制因子是多少

我有一个 kafka 集群有 3 个代理和几个主题每个主题有 5 个分区现在我想设置分区的复制因子我可以为kafka主题分区设置的最大复制因子是多少复制因子确定每个分区的复制数量这允许 Kafka 自动故障转移到这些副本当集群
HBase中删除多行的有效方法

有没有一种有效的方法可以删除 HBase 中的多行或者我的用例是否不适合 HBase 有一个表称为图表其中包含图表中的项目行键的格式如下 chart date reversed ranked attribute value reve
从主题内的特定分区进行流式传输（Kafka Streams）

据我在阅读 Kafka Streams 文档后了解到不可能将其用于仅来自给定主题的一个分区的流数据人们总是必须阅读整个文档那是对的吗如果是这样将来是否有计划向 API 提供这样的选项不你不能这样做因为内部消费者订阅了加入通过
从猪的单行输入生成多行输出

我的要求是通过在 Pig 脚本中使用单行输入来生成多行输出可能的解决方案有哪些这个想法是将你的输入线转换成一个袋子然后将其压平这里可能有两种情况阅读文字 txt load pig fun input text txt using

随机推荐

需要带有背景图像的空 Div 来强制高度并且必须具有响应能力

我需要以下内容空 div 没有内容背景图片设置到div中背景图像在调整大小时流畅响应灵敏我无法设置固定 div 上的尺寸我尝试的所有方法都无法强制打开 div 以支持背景图像的大小任何帮助是极大的赞赏 http www eve
如何在没有插件的情况下搜索选择标签html的选项

我用 html 制作了选择标签其中包含所有国家地区的名称我想使用搜索栏搜索它们的值而不需要任何插件或附加组件这可能吗 Answer 是的您可以首先在此处查看它的实际效果demo 如果您喜欢所看到的内容请执行以下操作 HTML
充分使用“if”语句或“try/catch”块？

给我一些你的想法关于哪种是更好的编码实践使代码更高效看起来更漂亮无论如何增加和提高你使用 if 语句来预测和捕获潜在问题的能力或者只是充分利用 try catch 假设这是针对 Java 的如果重要的话 Edit 我目前正在摆
自动为所有 SQL Server 作业创建脚本

目前我正在尝试为 MS SQL2005 服务器的所有 SQL 作业自动生成创建脚本我发现的一种方法已经完成手动http msdn microsoft com en us library ms191450 aspx 我发现第二种方法可以
始终保留n个最佳元素的数据结构

我需要一个始终保存n迄今为止插入的最大项目排名不分先后 So if n是 3 我们可以进行以下会话其中我插入一些数字并且容器的内容发生变化 now insert 1 1 now insert 0 1 0 now insert 4 1 0
寻找 A* 算法的启发式有哪些好方法？

您有一张方形图块地图您可以在其中向 8 个方向中的任意方向移动鉴于您有名为的函数cost tile1 tile2 它告诉您从一个相邻图块移动到另一个图块的成本您如何找到既可接受又一致的启发式函数 h y goal 给定此设置寻找启发
python 中的端口转发以允许套接字连接

我使用套接字启动服务器并希望允许客户端连接到它 self sock bind 0 0 0 0 0 0 0 0 0 will allow all connections and port 0 gt os chooses a open port
如何在不传递变量的情况下获取当前异常？

我正在寻找一种方法来检索当前异常而不必将其作为变量传递假设下面的代码 public void MakeItFail try throw new FailException catch Yes I m aware that this sh
ng-grid 自动调整列宽

我正在使用 AngularJS ng grid 并尝试制作它 1 根据列内容自动调整列宽 2 当显示的列较少时使最后一列宽度自动调整大小以填充空白区域例如我有 8 列每列宽度 100 整个 ng grid 宽度为 800 然后如果我
查找消息的作者

如果有人写 name arg 我希望我的机器人说消息的作者你的名字是 arg 我找不到该消息的作者 though client command async def name their name await client say 0 yo
Elastic Search 上可以创建的索引数量有限制吗？

我正在使用 AWS 提供的 Elastic Search 我的网站上以及每次注册时都有一个注册页面为新用户创建一个新索引稍后由他的工作组使用这意味着索引的数量不断增长现在达到大约 4 5k 我的问题是索引数量有性能限制吗为每个新
模板c++的模板？

我已经成功地创建了一些 preperty 类其中包含我们期望的所有内容我的意思是使用它时您不需要仅使用来调用函数operator 将完成所有工作但我想只有一件事如果我们能解决就好了 template
将 javascript 添加到 ASP.NET 文本框控件的 OnBlur 属性

有没有办法指定一些 JavaScript 在 ASP NET 文本框的 OnBlur 事件上执行在我看来如果我向 TextBox 对象添加任何事件处理程序它们只会导致回发到服务器而不是执行我想要的操作基本上我只想能够在 HTML
如何使用 Jquery 在午夜使 Cookie 过期？

我这样做了 cookie ultOS i expires 1 但它只会在第二天到期如何让 cookie 在午夜过期这会起作用吗 var date new Date var midnight new Date date getFullYe
如何使用 \x1b[2j 清除屏幕？

我们如何实施clrscr 谷歌搜索我发现 x1b 2j可以用来清屏但是我们如何使用它呢标准 C 库不提供清除屏幕的方法为此您需要一个依赖于操作系统的库在 DOS 和 Windows 下对于在 DOS 或 Windows 控制台中
分发时隐藏swift框架中的源代码

我创建了一个快速框架来分发给私人客户这是我第一次创建 iOS 框架所以我对很多事情都一无所知我的源代码是否有可能被隐藏我已经到处搜索但找不到正确的答案我不确定我是否解释得很彻底但为了简化起见我不希望开发人员能够修改或查看我的
ChartJS：数据标签：显示饼图中的百分比值

我有一个带有四个标签的饼图 var data data 50 55 60 33 labels India China US Canada backgroundColor 4b77a9 5f255f d21243 B27200 borderC
CoffeeScript：使用instanceof与Class.constructor.name

如果我有课 class Haha constructor lolAmount 1 gt alert lolAmount 我想检查一个对象是否属于正确的类使用它是否总是安全的constructor name haha new Haha un
如何在 ggplot2 中将地图与复杂的点显示结合起来？

我正在尝试用非洲背景地图绘制研究地点的点我可以独立创建这两个但我很难将它们叠加在一起我使用的非洲地图是来自 maplibrary org 的 Esri shapefile 它可以从我的保管箱中获得 https www dropbox
将文件分区为日期从 kafka 写入 hdfs 的最有效方法是什么

我正在开发一个应该通过 kafka 写入 hdfs 的项目假设有一个在线服务器将消息写入kafka 每条消息中都包含时间戳我想创建一个作业其输出将是根据消息中的时间戳的一个或多个文件例如如果kafka中的数据是 ts 01 07 2

热门标签