如何在通过Spark生产消息的Kafka中均匀分布数据？

2023-12-10

我有一个将数据写入 Kafka 的流作业，我注意到其中一个 Kafka 分区（#3）比其他分区获取更多的数据。

+-----------------------------------------------------+
| partition | messages  | earlist offset | next offset|
+-----------------------------------------------------+
|1          | 166522754 | 5861603324     | 6028126078 |
|2          | 152251127 | 6010226633     | 6162477760 |
|3          | 382935293 | 6332944925     | 6715880218 |
|4          | 188126274 | 6171311709     | 6359437983 |
|5          | 188270700 | 6100140089     | 6288410789 |
+-----------------------------------------------------+

我找到了一种选择 - 使用 Kafka 分区数 (5) 重新分区输出数据集。

还有其他方法可以均匀分布数据吗？

数据在 Kafka 中的分区方式并不取决于数据在 Spark 及其数据集中的分区方式。从 Kafka 的角度来看，它取决于消息的键，或者您在写入 Kafka 时应用自定义 Partitioner 类。

Kafka中数据的分区方式有以下几种场景：

消息键为空并且没有自定义分区程序

如果 Kafka 消息中未定义键，Kafka 将以循环方式在所有分区中分发消息。

消息键不为空且没有自定义分区程序

如果您提供消息密钥，默认情况下，Kafka 将根据以下条件决定分区：

hash(key) % numer_of_partitions

提供自定义分区器

如果您想完全控制 Kafka 如何在主题的分区中存储消息，您可以编写自己的 Partitioner 类并将其设置为partitioner.class在您的生产者配置中。

以下是客户分区器类的示例

public class MyPartitioner implements Partitioner {
  public void configure(Map<String, ?> configs) {}
  public void close() {}

  public int partition(String topic, Object key, byte[] keyBytes,
                       Object value, byte[] valueBytes, Cluster cluster) {
    List<PartitionInfo> partitions = cluster.partitionsForTopic(topic);
    int numPartitions = partitions.size();

    if ((keyBytes == null) || (!(key instanceOf String)))
      throw new InvalidRecordException("Record did not have a string Key");

    if (((String) key).equals("myKey"))
       return 0; // This key will always go to Partition 0

    // Other records will go to the rest of the Partitions using a hashing function
    return (Math.abs(Utils.murmur2(keyBytes)) % (numPartitions - 1)) + 1;
  }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

ApacheKafka

sparkstreamingkafka

如何在通过Spark生产消息的Kafka中均匀分布数据？的相关文章

使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
Apache Kafka Streams 将 KTable 物化到主题似乎很慢

我正在使用 kafka 流并试图将 KTable 具体化为一个主题它有效但似乎每 30 秒左右完成一次 Kafka Stream 如何何时决定将 KTable 的当前状态具体化为主题有没有什么办法可以缩短这个时间让其更加实时
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
为什么在 Spark-Shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

我在我的 VM Cloudera 机器上使用 Spark 1 6 0 我正在尝试从 Spark shell 将一些数据输入到 Hive 表中为此我尝试使用 SparkSession 但以下导入不起作用 scala gt import o
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
使用 offsets_for_times 从时间戳消费

尝试使用 confluence kafka AvroConsumer 来消费给定时间戳的消息 if flag creating a list topic partitons to search list map lambda p Topic
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
我的 Kafka 流应用程序刚刚退出，代码为 0，什么也不做

为了尝试 Kafka 流我这样做了 public static void main String args final StreamsBuilder builder new StreamsBuilder final Properties
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
Kafka：如何获取主题的最后修改时间，即添加到主题的任何分区的最后一条消息

我们的用例是从 kafka 中删除陈旧未使用的主题即如果某个主题在所有分区上在过去 7 天内没有任何新消息那么我们会将其视为陈旧未使用并删除它许多谷歌结果建议向消息添加时间戳然后解析它对于新主题和消息灵魂可以工作但我们
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
了解Kafka流groupBy和window

我无法理解 kafka 流中的 groupBy groupById 和窗口的概念我的目标是聚合一段时间内例如 5 秒的流数据我的流数据看起来像 value 0 time 1533875665509 value 10 time 153

随机推荐

查询视图以获取其列名称

我有大量的 SQL 2008 R2 视图我想知道视图中引用了哪些数据库字段有没有一种方法可以查询架构以列出这些列名称使用此查询针对sys sql dependencies SELECT ViewName O name Referenc
在指定行上方插入行

我想知道如何在具有订单类型如下指定的指定行上方插入 3 行额外的行该行在工作表中多次出现下面的代码可以工作只是它会在指定行下方插入行谢谢 Sub try Dim c As Range For Each c In Range A
在 MYSQL 子查询中使用 LIMIT 关键字的替代方法

我有一个包含以下列的表 TEST code ver VARCHAR suite VARCHAR date DATE 现在我想选择 10 行具有不同的 c 值ode ver code ver NOT LIKE DevBld sorted by
if 语句中的增量运算符如何工作？

include
如何在没有网络连接的情况下克隆git存储库

基础设施我有两台主机 A 和 B 我无法从 A 连接到 B 反之亦然主机 A 和主机 B 之间没有可到达的主机 C 我可以双向发送电子邮件允许添加文本附件不允许使用其他附件可能还有其他问题我想将 git 存储库从主机 A 克隆到
Django admin - 覆盖已经注册的模型

我需要覆盖django eav应用程序管理类在eav admin py型号已注册 admin site register Value 我需要添加列表显示到这个模型我知道修改已安装的应用程序代码是不好的做法所以我需要覆盖它但是不知道
EF5 Code First 枚举和查找表

我想定义一个供 EF5 使用的枚举以及相应的查找表我知道 EF5 现在支持枚举但开箱即用它似乎只在对象级别支持此功能并且默认情况下不会为这些查找值添加表例如我有一个 User 实体 public class User int I
选择类别后勾选子类别

我有一个过滤器框图标单击时会打开一个包含类别和子类别的对话框如下在此处输入图像描述 1 1 我想这样做以便当用户检查一个类别在我的例子中是一个国家时所有子类别在我的例子中是一个城市都会自动检查是的从数据库搜索的角度来看
Primefaces 组件 CSS 定制

正如我在 primefaces 文档中看到的那样 1 To change the font size of PrimeFaces components globally use the ui widget style class An ex
如何缓存 Firebase 存储下载的图像

我正在开发一个应用程序我需要缓存图像以便我可以在用户离线时检索它们并且在用户关闭并重新打开应用程序后也应该可以访问它们我需要类似的东西 FirebaseFirestoreSettings setPersistenceEnables
配置更改后或启动这些操作的活动被破坏后，SQLite CRUD 操作的预期行为是什么？

我正在重构我前段时间制作的一个应用程序当时我刚刚迈入 Android 最简单的方法就是避免方向更改对于几乎所有的 CRUD 操作我都使用AsyncTask类没有实现内容提供程序或使用片段现在我做了一些改变 I use Fragme
使用 Rcpp 属性允许 C++ 常量作为默认函数参数

我在 R 包中使用 rcpp 创建了一个 cumsum 函数它将对向量进行累积求和直到达到用户定义的上限或下限然而如果希望将累积和限制在上方则用户仍必须指定下限 Example a c 1 1 1 1 1 1 1 如果我想高潮a上
在 UI 元素上方的特定位置显示弹出按钮

我有 gridView 它的项目非常简单每个 gridViewItem 上都有按钮在此按钮上单击我想显示一个与 gridViewItem 内容相同的浮出控件但也显示更多数据这很简单但我想将弹出窗口放置在 gridViewItem
类型转换器不适用于 @Query 中的集合

我有一个名为 Events 的实体其定义如下 Entity tableName Events data class Event PrimaryKey val id Long val name String val venues Set
Python：定义具有依赖属性的类

我的目标是编写一个可用于计算设备所有属性的类 import numpy as np class pythagoras def init self a None b None c None self a a self b b self c c
jQuery .each 中的 setTimeout() 问题

以下代码将无法正常工作我尝试过不同的变体并到处搜索但没有运气 i 1 var timer new Array jQuery a each function i timer i setTimeout jQuery this remove i
C++：调用临时对象的构造函数

假设我有以下内容 int main SomeClass return 0 如果没有优化 SomeClass 构造函数将被调用然后它的析构函数将被调用对象将不复存在然而根据 IRC 频道如果编译器认为 SomeClass 构造函数
Gstreamer 的 OpenCV 3.0.0 错误

我刚刚按照本教程安装了 OpenCV 3 0 http rodrigoberriel com 2014 10 installing opencv 3 0 0 on ubuntu 14 04 我在安装过程中没有遇到任何错误但是当我尝试运行
如何使用 AJAX 上传文件而不使用 multipart？

我的应用程序允许用户上传的唯一文件是图像并且它们始终作为表单中的唯一输入字段上传因此多部分是不必要的并且我可以在没有多部分解析器的情况下更轻松地使用该文件如何使用 AJAX 和 vanilla Javascript 在不使用分段的
如何在通过Spark生产消息的Kafka中均匀分布数据？

我有一个将数据写入 Kafka 的流作业我注意到其中一个 Kafka 分区 3 比其他分区获取更多的数据 partition messages earlist offset next offset 1 166522754 58616033