我需要将推送到 Kafka 的消息存储在深度存储中。我们正在使用 Azure 云服务,因此我认为 Azure Blob 存储可能是更好的选择。我想使用 Kafka Connect 的接收器连接器 API 将数据推送到 Azure Blob。 Kafka 文档主要建议使用 HDFS 导出数据,但是在这种情况下,我需要一个运行 Hadoop 的 Linux VM,我猜这会很昂贵。我的问题是 Azure Blob 存储是存储 JSON 对象的适当选择,而构建自定义接收器连接器是这种情况的合理解决方案吗?
定制的水槽连接器绝对有效。 Kafka Connect 的设计绝对是为了让您可以插入连接器。事实上,连接器的开发是完全联合的。 Confluence 的 JDBC 和 HDFS 连接器首先实现只是因为这两个用例的流行,但还有更多(我们保留了我们知道的连接器列表)here http://connectors.confluent.io.
关于Azure blob存储是否合适,您提到了JSON对象。我认为您唯一需要考虑的是对象的大小以及Azure存储是否能够很好地处理对象的大小和数量。我不确定 Azure 存储的特性,但在许多其他对象存储系统中,您可能需要将许多对象聚合到单个 blob 中,以获得大量对象的良好性能(即,您可能需要支持许多 JSON 对象的文件格式)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)