Cassandra 中的异步写入似乎被破坏

2023-11-24

在将 900 万行批量写入 12 节点 cassandra (2.1.2) 集群时，我遇到了 Spark-cassandra-connector (1.0.4、1.1.0) 的问题。我以一致性 ALL 写入并以一致性 1 读取，但每次读取的行数都不同于 900 万（8.865.753、8.753.213 等）。

我检查了连接器的代码，没有发现任何问题。然后，我决定编写自己的应用程序，独立于 Spark 和连接器，来调查问题（唯一的依赖项是 datastax-driver-code 版本 2.1.3）。

完整的代码、启动脚本和配置文件现在可以在github上找到的.

在伪代码中，我编写了两个不同版本的应用程序，即同步版本：

try (Session session = cluster.connect()) {

    String cql = "insert into <<a table with 9 normal fields and 2 collections>>";
    PreparedStatement pstm = session.prepare(cql);

    for(String partitionKey : keySource) {
        // keySource is an Iterable<String> of partition keys

        BoundStatement bound = pstm.bind(partitionKey /*, << plus the other parameters >> */);
        bound.setConsistencyLevel(ConsistencyLevel.ALL);

        session.execute(bound);
    }

}

还有异步的：

try (Session session = cluster.connect()) {

    List<ResultSetFuture> futures = new LinkedList<ResultSetFuture>();

    String cql = "insert into <<a table with 9 normal fields and 2 collections>>";
    PreparedStatement pstm = session.prepare(cql);

    for(String partitionKey : keySource) {
        // keySource is an Iterable<String> of partition keys

        while(futures.size()>=10 /* Max 10 concurrent writes */) {
            // Wait for the first issued write to terminate
            ResultSetFuture future = futures.get(0);
            future.get();
            futures.remove(0);
        }

        BoundStatement bound = pstm.bind(partitionKey /*, << plus the other parameters >> */);
        bound.setConsistencyLevel(ConsistencyLevel.ALL);

        futures.add(session.executeAsync(bound));
    }

    while(futures.size()>0) {
        // Wait for the other write requests to terminate
        ResultSetFuture future = futures.get(0);
        future.get();
        futures.remove(0);
    }
}

最后一种与连接器在非批量配置情况下使用的类似。

应用程序的两个版本在所有情况下都工作相同，负载较高时除外。

例如，当在 9 台机器（45 个线程）上运行具有 5 个线程的同步版本时，向集群写入 900 万行，我在后续读取中找到了所有行（使用 Spark-cassandra-connector）。

如果我运行每台机器 1 个线程（9 个线程）的异步版本，执行速度会快得多，但我无法在后续读取中找到所有行（与 Spark-cassandra-connector 出现的问题相同）。

代码在执行过程中没有抛出异常。

问题的原因可能是什么？

我添加了一些其他结果（感谢您的评论）：

9 台机器上有 9 个线程的异步版本，每个线程有 5 个并发写入器（45 个并发写入器）：没有问题
9 台机器上 90 个线程的同步版本（每个 JVM 实例 10 个线程）：没有问题

异步写入和并发写入器数量 > 45 且

将 ResultSetFuture 的“get”方法替换为 “getUninterruptible”：同样的问题。
异步版本，9 台机器上 18 个线程，5 个并发每个线程的写入者（90 个并发写入者）：没有问题.

最后的发现表明，大量的并发写入者 (90) 并不像第一次测试中预期的那样是一个问题。问题是使用同一会话进行大量异步写入。

如果同一会话上有 5 个并发异步写入，则不存在该问题。如果我将并发写入数量增加到 10，某些操作会在没有通知的情况下丢失。

如果您在同一会话上同时发出多个 (>5) 写入，Cassandra 2.1.2（或 Cassandra Java 驱动程序）中的异步写入似乎会被破坏。

尼古拉和我这个周末通过电子邮件进行了交流，并认为我应该在这里提供我当前理论的更新。我看了一下github项目Nicola 分享并试验了 EC2 上的 8 节点集群。

我能够使用 2.1.2 重现该问题，但确实观察到在一段时间后我可以重新执行 Spark 作业并返回所有 900 万行。

我似乎注意到，当节点处于压缩状态时，我并没有获得全部 900 万行。一时兴起我看了一眼2.1 的更改日志并观察到一个问题CASSANDRA-8429 - “压缩期间某些键无法读取”这或许可以解释这个问题。

看到问题已在 2.1.3 中得到解决，我重新运行了针对 cassandra-2.1 分支的测试，并在压缩活动发生时运行了计数作业，并返回了 900 万行。

我想对此进行更多实验，因为我对 cassandra-2.1 分支的测试相当有限，并且压缩活动可能纯粹是巧合，但我希望这可以解释这些问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

cassandra

Cassandra 中的异步写入似乎被破坏的相关文章

使用 java 从 XML 元素中删除空格

我有一个 JSON 如下 String str Emp name JSON Emp id 1 Salary 20997 00 我想使用 java 将此 JSON 转换为 XML 我的 java 代码在这里 JSON json JSONSer
为 JSP 创建注销链接？

当用户登录我的应用程序时他提交一个要通过 Servlet 处理的表单 servlet 为用户创建一个会话我如何创建一个链接以便用户可以注销我似乎无法直接链接到 Servlet 如何删除会话并链接回主页 HttpSession sess
在 libgdx 中批处理多维数据集时出现问题

我正在尝试开发一款游戏在屏幕上渲染多达 300 个立方体为每个多维数据集创建新的 modelInstance 时 modelBatch 的性能非常糟糕据我所知没有 3d 批处理可以将所有立方体批处理到一次绘制调用所以我拼命地尝试以
检查两个日期周期是否重叠[重复]

这个问题在这里已经有答案了我有两个日期范围 start1 end1 gt gt date1 start2 end2 gt gt date2 我想检查两个日期是否重叠我的流程图我假设运算符对于比较是有效的 boolean isOverL
为什么用java日历解析时会得到错误的月份

Date fakeDate sdf parse 15 07 2013 11 00 AM Calendar calendar Calendar getInstance calendar setTime fakeDate int current
在 Java 中将字符串复制到文件的开头

我想将一个字符串写入文件的开头我该怎么做我根本不知道如何添加字符串这就是我到目前为止所做的 public static void prepend String filename String data throws IOExcepti
如何增加使用 SAX 解析 XML 文件的entityExpansionLimit

我正在尝试使用 Java 中的 SAX 解析器解析一个 1 23 GB 的 XML 文件我使用的是 Mac 操作系统和 JDK 1 7 0 51 不幸的是我收到以下错误 The pasrser has encountered more
将 Swing 集成到简单的文本冒险游戏中

我对 Java 中的一些中级概念相当陌生最近我制作了一款名为 DazzleQuest 的文本冒险游戏它完全在开发者控制台终端中运行它涉及到我的朋友作为角色所以我想向他们展示它并通过将命令行的功能和控制台的输出转移到一个简单的
如何在休眠中持久保存实体期间验证实体的约束

我有一个带有字段名称的实体我希望它不超过255 所以我这样定义它 Entity public class A implements Serializable NotNull Size max 255 private String name
Maven 部署：deploy-file 发布所有文件而不是一个

我正在使用 Maven 构建我的 Java 应用程序Maven 组装插件 https maven apache org plugins maven assembly plugin 创建一个可执行的 jar 因此目标文件夹包含多个 jar
JAVA 签名对象 - 没有安装的提供程序支持此密钥：sun.security.rsa.RSAPrivateCrtKeyImpl

我想使用密钥工具和以下命令创建的一对 RSA 密钥对我创建的文件进行签名 keytool genkeypair alias key keyalg RSA keysize 2048 sigalg SHA256withRSA validity
控制启动时的竞争条件

我有一些代码想要执行一些一次性初始化但这段代码没有明确的生命周期因此在初始化完成之前我的逻辑可能会被多个线程调用所以我想基本上确保我的逻辑代码等待直到初始化完成这是我的第一次剪辑 public class MyClass p
无法从 PDFA1-a 格式文档中提取图像

我正在使用以下代码从 PDFA1 a 格式的 pdf 中提取图像但我无法获取图像 List
不带破折号的 CliBuilder 参数

使用 Groovy CliBuilder 理想情况下我希望有一个命令行如下所示 MyProgram groovy CommandName arg1 arg2 arg3 是否可以使用 CliBuilder 解析提取 CommandName
如何在 HashiCorp Vault 中安全地存储 Spring Boot 应用程序的机密？

我已阅读以下教程保险库配置 https spring io guides gs vault config 好的我们安装了 Vault 服务器并放置了 2 对秘密属性 vault kv put secret gs vault config
CompletableFuture SupplyAsync

我刚刚开始探索 Java 8 的一些并发特性让我有点困惑的一件事是这两个静态方法 CompletableFuture
错误：类 kotlin.reflect.jvm.internal.FunctionCaller$FieldSetter

我已尝试一切方法来消除此错误但它不断出现 Class kotlin reflect jvm internal FunctionCaller FieldSetter can not access a member of class com
如何查找类路径中具有指定名称的所有资源？

我想列出类路径中具有特定名称的所有文件我预计会发生多次因此Class getResource String 不管用基本上我必须识别类路径中任何位置具有特定名称例如 xyz properties 的所有文件然后累积读取其中的元数据
如何使用 Java Streams API 将 Map 列表与列表值合并？

我怎样才能减少Map
在android中测量不规则多边形的面积

我正在开发一个应用程序在其中我在地图上绘制多边形并且我使用的地图不是谷歌它的Mapsforge开源离线地图库我可以通过将地理点转换为像素点来轻松在地图上绘制多边形但在这里我想发现是不规则的多边形为此我做了很多尝试但它让我失败了

随机推荐

Android：活动开始时明确聚焦于编辑文本

我的应用程序中有一些设置页面一旦活动直接开始它就会集中到编辑文本我使用以下代码来清除焦点
如何摆脱 StyleCop

我们团队中的某人安装了 StyleCop 从那时起除非安装了 stylecop 否则他加载并致力于源代码控制的所有项目都拒绝加载我知道我可以手动编辑 csproj 文件来删除它但是有没有一种简单的方法可以自动从项目文件中删除这些 st
如何在flutter中覆盖其他应用程序？

我想要即使我的 flutter 应用程序已关闭也会显示警报框或弹出警报框类似于这张图片你可以检查这个插件系统警报窗口一个 flutter 插件用于在所有其他应用程序上显示 Truecaller 之类的覆盖窗口以及回调事件
PostgreSQL - 从数据库转储恢复一张表

如何从数据库转储中恢复一张表我使用下一个命令进行转储 pg dump U admin h localhost my db name gzip gt home a2 db backup my db name backup sql gz 没有
使用 Delayed::Job 管理多个作业队列

我想使用 Delayed Job 或者可能是更适合我的问题的作业队列将作业分派到多个后台守护程序我有几个执行不同职责的后台守护进程每个人都对 Rails 应用程序队列中的不同作业感兴趣使用 Delayed Job 是否可以做到这一点
C# - 提取图像时解析 ffmpeg 标准输出

我通过从我的 C 代码启动 ffmpeg 进程来提取单个视频帧默认行为是将这些图像写入磁盘然而为了加快处理速度我想重定向 ffmpeg 标准输出以接收流并在我的程序中进一步处理它我正在使用与此类似的参数 i Filename vf
JQueryUI 可排序的 thead 和 tbody 在拖动隐藏两个字段的行时收缩

我有一个包含不同行和字段的表在一行中我有两个字段display none 当我拖动这些行时会产生类似于横向填充的效果 tbody 和 thead 表格没有缩小表格的元素是缩小的在下一个 JsFiddle 中第一行无法正常工作但在
检查年份是否为闰年
将宏名称传递到 X-Macro 列表是否合法

我想到以下是更好的风格X macro trick define LIST OF COLOURS X X RED X GREEN X BLUE define LIST OF FRUIT X X APPLE X ORANGE X TOMATO
Bootstrap 手风琴滚动到活动面板标题的顶部

我正在寻找一个代码该代码可以滚动到我的 bootstrap 3 html css 手风琴当前活动面板标题的顶部我在 stackoverflow 上找到的最接近的解决方案是下面的 js 片段该代码片段工作得相当好但是当单击面板标题时
Firefox 扩展的“扩展存储”数据存储在哪里？

假设您有一个 Firefox 扩展然后你转到 about debugging gt this firefox gt 然后你点击扩展上的 Inspect 然后它将打开该扩展的 about devtools toolbox 您可以单击存储
jQuery 单击事件未在 optgroup 上触发

我有以下代码 jsFiddle 上的示例
“getchar()”函数如何能够接受多个字符作为输入？

这是一个基本的 C 字符计数程序 include
使用signtool签署代码时如何包含整个认证路径？

使用签名代码时如何包含整个认证路径signtool 旧版本的 Signtool 将在数字签名中包含整个认证路径现在如果我用以下命令签署可执行文件signtool signtool exe sign v f avatar pfx t htt
Python 请求 get 返回 nse 印度网站的响应代码 401

我使用这个程序来获取json数据https www nseindia com api option chain indices symbol NIFTY但从今天早上开始它就不再工作了
关闭函数之前 PHP 分析延迟

VERY BEGIN OF SCRIPT SERVER HX startTime microtime true MY SHUTDOWN FUNCTION register shutdown function HX shutdownFn fu
Python - 如何按每个列表中的第四个元素对列表列表进行排序？ [复制]

这个问题在这里已经有答案了我想按每个单独列表中的第四个元素整数对以下列表列表进行排序 unsorted list a b c 5 d e f g 3 h i j k 4 m 我怎样才能做到这一点谢谢你 unsorted list s
R 数据帧子集的行的随机样本[重复]

这个问题在这里已经有答案了有没有一种从数据帧的一部分获取行样本的好方法如果我只有这样的数据 gender lt c F M M F F M F F age lt c 23 25 27 29 31 33 35 37 然后我可以轻松地采样三
CSS3圆角与谷歌地图

我正在尝试在 Google 地图中使用 css3 border radius 属性来应用圆角边框但它在 Chrome 中不起作用在其他浏览器中效果很好有什么想法或建议吗我在这里输入我的代码并等待积极答复谢谢
Cassandra 中的异步写入似乎被破坏

在将 900 万行批量写入 12 节点 cassandra 2 1 2 集群时我遇到了 Spark cassandra connector 1 0 4 1 1 0 的问题我以一致性 ALL 写入并以一致性 1 读取但每次读取的行数都不

Cassandra 中的异步写入似乎被破坏

Cassandra 中的异步写入似乎被破坏 的相关文章

随机推荐

热门标签

Cassandra 中的异步写入似乎被破坏的相关文章