使用 Cassandra 进行事件重复数据删除

2024-03-10

我正在寻找使用 Cassandra 消除重复事件的最佳方法。

我有很多客户端接收事件 ID（每秒数千个）。我需要确保每个事件 id 都被处理一次且仅一次，并且具有高可靠性和高可用性。

到目前为止我已经尝试了两种方法：

使用事件 id 作为分区键，然后执行“INSERT ... IF NOT EXISTS”。如果失败，则该事件是重复的并且可以被删除。这是一个很好的干净方法，但是由于 Paxos，吞吐量不是很大，尤其是在复制因子较高（例如 3）的情况下。它也很脆弱，因为 IF NOT EXISTS 总是需要法定人数才能工作，并且没有办法回退到较低的复制因子如果法定人数不可用，则保持一致性。因此，几个关闭的节点将完全阻止某些事件 ID 的处理。
允许客户端在同一事件 ID 上发生冲突，然后使用聚类列检测冲突。因此，使用事件 id 作为分区键进行插入，并使用客户端生成的 timeuuid 作为集群列。然后，客户端将等待一段时间（以防其他客户端插入相同的分区键），然后读取限制为 1 的事件 id，以返回最旧的聚集行。如果它读回的 timeuuid 与它插入的内容相匹配，那么它就是“获胜者”并处理该事件。如果 timeuuid 不匹配，则它是重复的，可以删除。

碰撞（面包师算法）方法比使用 IF NOT EXISTS 具有更好的吞吐量和可用性，但它更复杂并且风险更大。例如，如果客户端上的系统时钟出现故障，则重复事件将看起来像非重复事件。我的所有客户端和 Cass 节点都使用 NTP，但这在同步时钟方面并不总是完美的。

有人对使用哪种方法有建议吗？还有其他方法可以做到这一点吗？

另请注意，我的集群将设置三个数据中心，DC 之间的延迟约为 100 毫秒。

Thanks.

IF NOT EXISTS 的扩展性不如现有的 Cassandra（因为协调速度很慢，但您知道这一点），但可能是“官方的、正确的”方法。还有另外两种“有效”的方法：

1）使用外部锁定系统（zookeeper、memcached CAS等），它允许您处理cassandra外部的协调。

2）使用一个丑陋的反向时间戳技巧，以便第一个写入获胜。不要使用客户端提供的与实际挂起时间相对应的时间戳，而是使用 MAX_LONG - (挂起时间) = 时间戳。这样，第一次写入具有最高的“时间戳”，并且将优先于后续写入。这种方法是有效的，尽管它对 DTCS 之类的东西（如果你正在做时间序列并且想要使用 DTCS，不要使用这种方法，DTCS 会非常混乱）和一般删除（如果你真的想要删除具有真实墓碑的行，您还必须使用人工时间戳写入该墓碑。

值得注意的是，有人尝试解决 cassandra 的“最后写入总是获胜”的性质 - 例如，CASSANDRA-6412（我曾在某个时候工作过，并且可能会在下个月或所以）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Cassandra 进行事件重复数据删除的相关文章

如何从任何地方运行 Cassandra (cqlsh)

在 Cassandra 中官方文档 https wiki apache org cassandra GettingStarted https wiki apache org cassandra GettingStarted 它指出启动服务
使用 cql 从 python 插入到 cassandra

我计划将数据插入到具有复合键的波纹管 CF 中 CREATE TABLE event attend event id int event type varchar event user id int PRIMARY KEY event id
Cassandra 备份，包括架构

我感兴趣的备份技术有两种 a SCHEMA 备份恢复数据库模式添加或删除列更改列类型添加表等 b 数据备份恢复数据更新从一个表读取到另一个表让我通过例子来解释一下首先我创建实体客户 Customer 编号名称 11
Cassandra 用于无模式数据库、数十百万个订单表和每天数百万个查询

我正在建立一个数据库具有以下特点每行的列数可变的无模式数据库数千万条记录和数十列每天有数百万次查询每天有数千篇文章查询将在多个列上进行过滤不仅仅是键我正在考虑按比例构建的 Cassandra 我的问题是在这种情况下我需要水
如何使用 DevCenter 远程连接到 Cassandra

我使用他们的镜像在 Azure 上设置了 DataStax Cassandra Sandbox 我能够在服务器上本地运行 OpsCenter 没有任何问题安装的是Ubuntu 我对它很陌生根据这篇文章Apache Cassandra 远
如何读取cassandra数据而不区分大小写

我需要从 cassandra 获取数据而不区分大小写请帮我 Cassandra 中没有区分大小写的概念所有数据都存储为byte 所以它甚至不是一个字符串您可以制作自定义比较器参见API http wiki apache org ca
Cassandra 查询失败：尝试查询的所有主机均失败（未尝试任何主机）

我无法对 Cassandra 节点进行查询我能够连接到集群并进行连接但是在执行查询时它失败了 Caused by com datastax driver core exceptions NoHostAvailableExceptio
在 cassandra 中将 json 存储为文本与 blob 相比有何优缺点？

对于我来说 blob 的一个问题是在 java 中 ByteBuffer 在 cassandra 中映射到 blob 不是可序列化的因此不能很好地与 EJB 配合使用考虑到 json 相当大在 cassandra 中存储 json
Cassandra 3.11.3和cqlsh不支持python 3.6和3.7？ [复制]

这个问题在这里已经有答案了我已经安装了Python 3 6 或 3 7 with 卡桑德拉 3 11 3 但不支持cqlsh 它只支持Python 2 7版本这是错误消息 apache cassandra 3 11 3 bin cqls
Java、Spark 和 Cassandra java.lang.ClassCastException：com.datastax.driver.core.DefaultResultSetFuture 无法转换为阴影

我在尝试将数据写入 Cassandra 数据库时遇到错误我在这里得到了什么 1 字典 java package com chatSparkConnactionTest import java io Serializable public
Cassandra - 有没有办法限制异步查询的数量？

我想知道是否有办法限制 cassandra java 驱动程序同时执行的查询数量目前我执行了很多查询如下所示 PreparedStatement stmt session prepare SELECT FROM users WHERE
如何在Cassandra中搜索不相等的二级索引？

我需要能够仅使用对二级索引执行搜索据我所知 Cassandra 至少需要一个等式索引子句因为它会迭代该等式索引的所有结果是否有任何技巧可以仅使用执行操作至少在概念上这是一个坏主意吗另外有人知道 Cassandra 是否有计
从 C* 表中获取不同的分区键

cqlsh 不允许嵌套查询因此我无法将所选数据导出到 csv 我正在尝试使用以下命令从 cassandra 导出选定的数据大约 200 000 行单列 echo SELECT distinct imei FROM listener s
Cassandra 中的强一致性

根据datastax文章可以保证强一致性如果 R W gt N 在哪里 R是读操作的一致性级别 W为写操作的一致性级别 N 是副本数这里的强一致性是什么意思呢这是否意味着每次从数据库给出查询响应时响应将始终是最后更新的值
如何在 AWS Glue 中使用 Spark 包？

我想使用 DatastaxSpark Cassandra 连接器 https mvnrepository com artifact com datastax spark spark cassandra connector 2 12 2 5
使用 pycassa 读取 Cassandra 1.2 表

使用卡桑德拉 1 2 我按以下方式使用 CQL 3 创建了一个表 CREATE TABLE foo user text PRIMARY KEY emails set
Datastax Cassandra OpsCenter 服务未在 Windows 7 上启动

我是卡桑德拉的新手我按照中提到的说明在 Windows 7 64 位上安装了 DataStax Cassandra 社区版DataStax 社区版 http www datastax com 2012 01 getting started
Cassandra cqlsh 不适用于非分区键的 where 子句

我的表描述是 CREATE TABLE user id text CustID int static UpdateDate date DateOfBirth date static Gender text static Address te
Spring-data-cassandra：创建名称为“sessionFactory”的 bean 时出错，并且无法解析对 bean“cassandraTemplate”的引用

我有一个 springboot 应用程序在其中连接到 cassandra DB 我的 pom xml parent gt
无法使用 datastax java 驱动程序通过 UDT 密钥从 cassandra 检索

我正在尝试使用用户定义的类型作为分区键将对象存储在 cassandra 中我正在使用 datastax java 驱动程序进行对象映射虽然我能够插入到数据库中但无法检索该对象如果我更改分区键以使用非 udt 例如文本我就能够保存和

随机推荐

目录轮询的最佳实践

我必须进行批处理来自动化业务流程我必须定期轮询目录以检测新文件并进行处理当旧文件正在处理时新文件可以进来目前我使用quartz调度程序和线程同步来确保只有一个线程可以处理文件部分代码为应用程序上下文 xml
MSVC 中带有 UTF8 字符的 wchar_t*

我正在尝试格式化wchar t 与 UTF 8 字符一起使用vsnprintf然后使用打印缓冲区printf 给出以下代码 This code is modified version of KB sample https www ibm c
Spring MVC 控制器中代理 HttpServletRequest 最简单的方法

我正在使用 spring mvc 构建 REST 服务我现在正在寻找一种从 Spring MVC 控制器内部将 HTTP 请求代理到外部 REST 服务的方法我正在获取 HttpServletRequest 对象并希望代理它并进行尽可
查找所有子控件WPF

我想找到 WPF 控件中的所有控件我查看了很多示例似乎它们都需要名称作为参数传递或者根本不起作用我有现有的代码但它无法正常工作 public static IEnumerable
C 预处理器能够逐字符处理字符串吗？

我想在编译时隐藏字符串我知道它可以在其他预处理器中完成但我还没有找到一种方法来做到这一点C预处理器好吧你可以做到但它很难看 define ENCODE STRING 14 str str 0 0x020 str 1 0x020 s
Ruby 的 String#gsub、unicode 和非单词字符

作为更大系列操作的一部分我试图获取更大字符串的标记化块并去掉标点符号非单词官样文章等我最初的尝试使用String gsub和 W正则表达式字符类如下所示 my str Hello processed my str gsub W p
在 Visual Studio 2008 中创建项目解决方案的设置

所以我对工资单申请的最终查询是如何创建工资单应用程序设置我需要知道的就是如何将安装项目添加到现有解决方案中如何将解决方案中的文件添加到安装项目以及要添加哪些文件添加并在哪个文件夹中即默认有三个文件夹应用程序文件夹用户桌面用
有没有办法唯一地标识我的 Chrome 扩展程序运行内容脚本的 iframe？

在我的 Chrome 扩展中我注入了内容脚本进入所有IFRAMEs在一个页面内这是其中的一部分manifest json file content scripts run at document end all frames true
为什么 JavaScript 函数需要有关键字“async”？ “await”关键字还不够吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案例如为什么下面的函数需要 async 没有使用await是否足够具体以使编译器能够毫无歧义地解析代码 Why do we need async
WPF TextBox 不会填充 StackPanel

我有一个TextBox控制在一个StackPanel whose Orientation被设定为Horizontal 但无法让 TextBox 填充剩余的 StackPanel 空间 XAML
无法在 VS2017 中加载源 https://api.nuget.org/v3/index.json 的服务索引？

我收到此错误 nuget org 无法加载源的服务索引https api nuget org v3 index json https api nuget org v3 index json 发送时发生错误的请求无法连接到远程服务器A连接
NReco视频剪辑

我编写了一个使用 NReco 库剪切视频的函数 public void SplitVideo string SourceFile string DestinationFile int StartTime int EndTime var ff
对 JavaScript 中的递归和执行流程有更清晰的解释吗？

我正在阅读 Eloquent JavaScript 并遇到了这个难题的示例考虑这个难题从数字 1 并重复加 5 或乘以 3 可以有无限数量的新数字产生的你会怎样写一个函数给定一个数字尝试找到添加序列并产生的乘法数字
使用maven 3.8.5在intellij Idea中导入Springboot 2.7项目时出错

当使用start spring io时使用 springboot 2 7 生成的项目附带 MavenProject 3 8 5 当在 intellij 中导入时会导致一个很难调试或本身不自言自语的错误错误 java lang Runt
获取本[周/月/季度/年]最后一天的日期

有什么方法可以获取日期 adatetime pd Timestamp或同等金额本周月季度年的最后一天datetime pandas或其他日期和时间实用程序 Using datetime only gt gt gt d datet
Java 8/Javascript (Nashorn) 长互操作性

在 Java 8 Nashorn 中执行的以下 Javascript 代码的行为不符合预期 if a b do sth a 和 b 是来自 Java 对象的长值例如 1023948 1023949 例如当 a 1023949 且 b 1
如何在 Spark 中使用 Sklearn 模型进行预测？

我使用 sklearn 在 python 中训练了一个模型我们如何使用相同的模型加载 Spark 并在 Spark RDD 上生成预测 Well 我将展示 Sklearn 中的线性回归示例并向您展示如何使用它来预测 Spark RDD
如何使引导导航栏下拉菜单的列表项徽章向右对齐？

在文档中badges http getbootstrap com components badges 徽章嵌套在nav nav pills nav stacked class 但我在导航栏中有一个使用徽章的下拉菜单我认为这是因为它在一个
php curl 能够登录网站但登录后不显示任何数据

HI 我可以使用 php 和 curl 登录该网站但是当我登录后尝试读取数据时如果启用了 CURLOPT RETURNTRANSFER 则显示 string 0 禁用时显示 bool true 我不明白我到底错在哪里非常感谢任何帮助
使用 Cassandra 进行事件重复数据删除

我正在寻找使用 Cassandra 消除重复事件的最佳方法我有很多客户端接收事件 ID 每秒数千个我需要确保每个事件 id 都被处理一次且仅一次并且具有高可靠性和高可用性到目前为止我已经尝试了两种方法使用事件 id 作为分区键然

使用 Cassandra 进行事件重复数据删除

使用 Cassandra 进行事件重复数据删除 的相关文章

随机推荐

热门标签

使用 Cassandra 进行事件重复数据删除的相关文章