用于 Azure Blob 存储的 Kafka 连接器

2023-12-21

我需要将推送到 Kafka 的消息存储在深度存储中。我们正在使用 Azure 云服务,因此我认为 Azure Blob 存储可能是更好的选择。我想使用 Kafka Connect 的接收器连接器 API 将数据推送到 Azure Blob。 Kafka 文档主要建议使用 HDFS 导出数据,但是在这种情况下,我需要一个运行 Hadoop 的 Linux VM,我猜这会很昂贵。我的问题是 Azure Blob 存储是存储 JSON 对象的适当选择,而构建自定义接收器连接器是这种情况的合理解决方案吗?


定制的水槽连接器绝对有效。 Kafka Connect 的设计绝对是为了让您可以插入连接器。事实上,连接器的开发是完全联合的。 Confluence 的 JDBC 和 HDFS 连接器首先实现只是因为这两个用例的流行,但还有更多(我们保留了我们知道的连接器列表)here http://connectors.confluent.io.

关于Azure blob存储是否合适,您提到了JSON对象。我认为您唯一需要考虑的是对象的大小以及Azure存储是否能够很好地处理对象的大小和数量。我不确定 Azure 存储的特性,但在许多其他对象存储系统中,您可能需要将许多对象聚合到单个 blob 中,以获得大量对象的良好性能(即,您可能需要支持许多 JSON 对象的文件格式)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

用于 Azure Blob 存储的 Kafka 连接器 的相关文章

  • kafka 连接 s3 源无法与 Minio 一起使用

    我已经验证了与 minio 的连接 确保凭据工作正常并且可以访问 minio 另外 如果我尝试任何其他值store url http minio 9000我无法保存配置 所以我猜想在可见性方面不存在问题卡夫卡连接容器和minio容器 我不确
  • 在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

    我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且 我正在尝试在火花流中使用来自卡夫卡的消息 以下是代码 val topics notes val kafkaParams Map String Object bootst
  • 为什么卡夫卡这么快[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 如果我有相同的硬件 请使用 Kafka 或我们当前的解决方案 ServiceMix Camel 有什么区别吗 Kafka 能处理比它
  • Kafka Consumer 无法加载任何密钥库类型和路径的 SSL 密钥库(Logstash ArcSight 模块)

    我需要为 Kafka Consumer 提供客户端身份验证证书 但是 它总是失败并出现以下异常 无法加载 SSL 密钥库 ssl cipher suites null ssl enabled protocols TLSv1 2 TLSv1
  • Kafka Producer配置重试策略

    需要更改 Kafka Producer 配置的哪些参数 以便生产者应该 1 重试n次 2 n个间隔后 如果代理关闭 也会收到相同的消息 我需要处理与此相关的情况 https github com rsyslog rsyslog issues
  • 如何在 Python 中以编程方式检查 Kafka Broker 是否已启动并运行

    我正在尝试使用来自 Kafka 主题的消息 我正在使用包装器confluent kafka消费者 我需要在开始使用消息之前检查连接是否已建立 我读到消费者很懒 所以我需要执行一些操作才能建立连接 但我想检查连接建立而不执行consume o
  • 为每个键使用主题中的最新值

    我有一个 Kafka 生产者 它正在以高速率生成消息 消息键是用户名 值是他在游戏中的当前分数 Kafka消费者处理消费消息的速度相对较慢 在这里 我的要求是显示最新的分数并避免显示陈旧的数据 但代价是某些分数可能永远不会显示 本质上 对于
  • 从 Apache Kafka 中的主题删除消息

    所以我是 Apache Kafka 的新手 我正在尝试创建一个简单的应用程序 以便我可以更好地理解 API 我知道这个问题在这里被问了很多 但是如何清除存储在主题上的消息 记录 我看到的大多数答案都说要更改消息保留时间或删除并重新创建主题
  • 使用访问密钥的 REST Api 到 Azure Blob 存储

    我们正在尝试在不使用 Azure SDK 的情况下访问 azure blob 存储中的 blob 我们正在尝试通过 Azure REST API 通过共享密钥进行访问 为此我们需要生成授权标头 但是当我尝试从访问密钥创建签名时 出现以下错误
  • 使用 offsets_for_times 从时间戳消费

    尝试使用 confluence kafka AvroConsumer 来消费给定时间戳的消息 if flag creating a list topic partitons to search list map lambda p Topic
  • 我的 Kafka 流应用程序刚刚退出,代码为 0,什么也不做

    为了尝试 Kafka 流 我这样做了 public static void main String args final StreamsBuilder builder new StreamsBuilder final Properties
  • kafka新版本2.1.0 Broker无故挂起

    起初 集群中的所有代理都可以启动并正常工作 但有时其中一个代理会遇到问题 并且会出现一些现象 整个集群挂了 生产者和消费者也不工作 因此从监视器来看网络流量降至零 使用kafka topic sh描述主题消息 每个副本都很好 即使是异常的b
  • 创建 Kafka 主题导致没有领导者

    我正在使用 Kafka v0 9 0 1 Scala v2 11 和com 101tec zkclientv0 7 我正在尝试使用AdminUtils创建一个kafka主题 我的代码如下 String zkServers node1 218
  • 如何使用 Python 在 Kafka 中生成 Tombstone Avro 记录?

    我的水槽属性 name jdbc oracle config connector class io confluent connect jdbc JdbcSinkConnector tasks max 1 topics orders con
  • Kafka Streams 反序列化处理程序

    我正在尝试在反序列化中使用 LogAndContinueExceptionHandler 当发生错误时 通过成功记录错误并继续 它可以正常工作 但是 假设我的传入消息有连续的错误流 我停止并重新启动 kafka 流应用程序 然后我看到失败并
  • Mesos DCOS 未安装 Kafka

    我正在尝试在 Mesos 上安装 Kafka 看来安装已经成功了 vagrant DevNode dcos dcos package install kafka This will install Apache Kafka DCOS Ser
  • Flink Kafka - 如何使应用程序并行运行?

    我正在 Flink 中创建一个应用程序 读取某个主题的消息 对其进行一些简单的处理 将结果写入不同的主题 我的代码确实有效 然而它不并行运行我怎么做 看来我的代码只在一个线程 块上运行 在 Flink Web 仪表板上 应用程序进入运行状态
  • 不要覆盖 Azure Blob 存储

    我有一种将文件添加到 Azure Blob 存储的方法 问题是我试图指定一个条件 在该条件下它不会覆盖 blob 而只是添加到其中 我正在尝试使用参数访问条件 但是 VS 说这个方法不能采用两个参数 async void archiveNe
  • Azure 数据工厂 V2 中的 LeaseAlreadyPresent 错误

    我在管道中收到以下错误使用 Rest API 复制活动作为来源和Azure 数据湖存储第 2 代作为水槽 message 失败发生在 Sink 端 ErrorCode AdlsGen2OperationFailed Type Microso
  • 如何检查 Azure Blob Storage V12 中是否存在容器

    以前使用 Azure Blob Storage SDK V11 时 如果您想要创建容器但不确定该容器是否存在 可以使用 CreateIfNotExists 然而在版本 V12 中 CreateIfNotExists 不再可用 我能从 Mic

随机推荐