二级索引在 Cassandra 中如何工作？

2024-02-21

假设我有一个列族：

CREATE TABLE update_audit (
  scopeid bigint,
  formid bigint,
  time timestamp,
  record_link_id bigint,
  ipaddress text,
  user_zuid bigint,
  value text,
  PRIMARY KEY ((scopeid, formid), time)
  ) WITH CLUSTERING ORDER BY (time DESC)

有两个二级索引，其中record_link_id是一个高基数列：

CREATE INDEX update_audit_id_idx ON update_audit (record_link_id);

CREATE INDEX update_audit_user_zuid_idx ON update_audit (user_zuid);

据我所知，Cassandra 将创建两个隐藏的列族，如下所示：

CREATE TABLE update_audit_id_idx(
    record_link_id bigint,
    scopeid bigint,
    formid bigint,
    time timestamp
    PRIMARY KEY ((record_link_id), scopeid, formid, time)
);

CREATE TABLE update_audit_user_zuid_idx(
    user_zuid bigint,
    scopeid bigint,
    formid bigint,
    time timestamp
    PRIMARY KEY ((user_zuid), scopeid, formid, time)
);

Cassandra 二级索引作为本地索引实现，而不是像普通表那样分布。每个节点仅存储其所存储数据的索引。

考虑以下查询：

select * from update_audit where scopeid=35 and formid=78005 and record_link_id=9897;

该查询将如何在 Cassandra 中“幕后”执行？
高基数列索引 (record_link_id）影响其性能？
Cassandra 会触及上述查询的所有节点吗？Why?
首先执行哪个条件，基表partition_key还是二级索引partition_key？ Cassandra 将如何将这两个结果相交？

select * from update_audit where scopeid=35 and formid=78005 and record_link_id=9897;

上述查询在 cassandra 内部如何工作？

本质上，分区的所有数据scopeid=35 and formid=78005会被返回，然后通过record_link_id指数。它将寻找record_link_id条目为9897，并尝试匹配与返回的行匹配的条目，其中scopeid=35 and formid=78005。将返回分区键和索引键的行的交集。

对于上述查询，高基数列 (record_link_id) 索引将如何影响查询性能？

高基数索引本质上为主表中的（几乎）每个条目创建一行。性能会受到影响，因为 Cassandra 设计为对查询结果执行顺序读取。索引查询本质上是强制 Cassandra 执行random读。随着索引值基数的增加，查找查询值所需的时间也会增加。

cassandra 是否会触及上述查询的所有节点？为什么？

不。它应该只触及负责的节点scopeid=35 and formid=78005分割。索引同样存储在本地，仅包含对本地节点有效的条目。

在高基数列上创建索引将是最快、最好的数据模型

这里的问题是该方法无法扩展，并且如果update_audit是一个大数据集。 MVP Richard Low 有一篇关于二级索引的精彩文章（Cassandra 二级索引的最佳选择 http://www.wentnet.com/blog/?p=77），特别是在这一点上：

如果您的表明显大于内存，则即使只返回几千个结果，查询也会非常慢。返回潜在的数百万用户将是灾难性的，即使它看起来是一个有效的查询。

...

实际上，这意味着索引对于返回数十个甚至数百个结果最有用。当您下次考虑使用二级索引时，请记住这一点。

现在，您首先通过特定分区进行限制的方法将会有所帮助（因为您的分区肯定应该适合内存）。但我觉得这里表现更好的选择是record_link_id集群键，而不是依赖二级索引。

Edit

即使我们提供主键，当有数百万用户时，在低基数索引上建立索引如何扩展

这取决于你的行有多宽。基数极低的索引的棘手之处在于，返回的行的百分比通常更大。例如，考虑一个宽行users桌子。您通过查询中的分区键进行限制，但仍然返回 10,000 行。如果您的索引类似于gender，您的查询将必须过滤掉大约一半的行，这不会很好地执行。

二级索引往往在（由于缺乏更好的描述）“中间道路”基数上效果最好。使用上面的宽行示例users表，索引country or state应该比索引表现得更好gender（假设大多数用户并不都居住在同一个国家或州）。

编辑20180913

对于第一个问题“上述查询在 cassandra 内部如何工作？”的回答，您知道分页查询时的行为是什么吗？

考虑下图，取自Java 驱动程序文档 https://docs.datastax.com/en/developer/java-driver/3.6/manual/paging/ (v3.6):

基本上，分页将导致查询自行分解并返回到集群以获取下一次结果迭代。超时的可能性较小，但性能会呈下降趋势，与总结果集的大小和集群中的节点数量成正比。

TL;博士;请求的结果越多，分布在更多的节点上，所需的时间就越长。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

二级索引在 Cassandra 中如何工作？的相关文章

如何从任何地方运行 Cassandra (cqlsh)

在 Cassandra 中官方文档 https wiki apache org cassandra GettingStarted https wiki apache org cassandra GettingStarted 它指出启动服务
意外删除表时恢复 cassandra 集群数据

如您所知 Cassandra 集群具有复制功能可以防止数据丢失即使集群中的某些节点发生故障也是如此但是如果管理员不小心删除了一个包含大量数据的表并且该命令已经由集群中的所有副本执行这是否意味着您丢失了该表并且无法恢复它有什么建
列族 ID 不匹配（发现为 cebcc380-72d4-11e7-9a6b-bd620b945799；预期为 c05d6970-72d4-11e7-9a6b-bd620b945799）

我该如何解决这个错误列族 ID 不匹配发现为 cebcc380 72d4 11e7 9a6b bd620b945799 预期为 c05d6970 72d4 11e7 9a6b bd620b945799 Caused by java uti
设置 cassandra.logdir 的最佳方法是什么

我已将 cassandra 软件放入 home user所有日志文件应放置在 data log Cassandra 具有文件conf logback xml 其中包含用于确定文件日志路径的参数例如 cassandra logdir sys
库存管理系统的 SQL 与 NoSQL

我正在开发一个基于 JAVA 的网络应用程序主要目的是拥有在多个称为渠道的网站上销售的产品的库存我们将担任所有这些渠道的管理者我们需要的是用于管理每个渠道的库存更新的队列库存表其中包含每个通道上分配的正确快照将会话 ID 和其
使用 DataStax Java 驱动程序 1.0.4 通过 CQL 连接到 Cassandra 时出现异常

我的笔记本电脑上运行的是 Cassandra 1 2 11 我可以使用连接到它nodetool and cqlsh但是当我尝试使用 DataStax 1 0 4 Java API 来使用 CQL 3 0 进行连接时出现以下错误 com d
Cassandra 中的强一致性

根据datastax文章可以保证强一致性如果 R W gt N 在哪里 R是读操作的一致性级别 W为写操作的一致性级别 N 是副本数这里的强一致性是什么意思呢这是否意味着每次从数据库给出查询响应时响应将始终是最后更新的值
可以在 UUID 列上创建索引吗？

是否可以在 Cassandra 中的 UUID TIMEUUID 列上创建索引我正在测试一个模型设计该设计在 UUID 列上有一个索引但对该列的查询始终返回找到的 0 行我有一个这样的表 create table some data
Cassandra 墓碑对多个查询与单个查询进行计数

我有一个 cassandra 表定义如下 CREATE TABLE mytable colA text colB text timeCol timestamp colC text PRIMARY KEY colA colB timeCol
如何在 AWS Glue 中使用 Spark 包？

我想使用 DatastaxSpark Cassandra 连接器 https mvnrepository com artifact com datastax spark spark cassandra connector 2 12 2 5
Apache Cassandra 如何进行聚合操作？

总的来说我对 Apache Cassandra 和 nosql 相当陌生在 SQL 中我可以执行聚合操作例如 SELECT country sum age count AS averageAge FROM people GROUP
Cassandra 集群 - 特定节点 - 特定表高丢弃突变

我在生产中的压缩策略是 LZ4 压缩但我将其修改为 Deflate 对于压缩更改我们必须使用 nodetool Upgradesstables 强制升级所有 sstable 上的压缩策略但是一旦在集群中的所有 5 个节点上完成了 U
TaskSchedulerImpl：初始作业尚未接受任何资源；

这就是我正在尝试做的事情我创建了DataStax企业集群的两个节点在其上创建了一个java程序来获取一张表 Cassandra数据库表的计数该程序是在 eclipse 中构建的实际上是来自 windows 盒子从 Windows
从 Datastax 6.0 到 Cassandra 3 的迁移路径

我正在尝试找到从 Datastax Enterprise DSE 6 0 14 到 Cassandra Community OSS 3 的迁移路径到目前为止我无法找到有效的迁移路径所有键空间复制均已更新为NetworkTopology
了解 Cassandra 池选项（setCoreConnectionsPerHost 和 setMaxConnectionsPerHost）？

我最近开始使用 Cassandra 并且正在阅读有关连接池的更多信息here https docs datastax com en developer java driver 3 6 manual pooling 我对池大小感到困惑无法理
Cassandra Pojo Sink Flink 中的动态表名称

我是 Apache Flink 的新手我正在使用 Pojo Sink 将数据加载到 Cassandra 中现在我在以下命令的帮助下指定表和键空间名称 Table注解现在我想在运行时动态传递表名称和键空间名称以便可以将数据加载到用
Spring-data-cassandra：创建名称为“sessionFactory”的 bean 时出错，并且无法解析对 bean“cassandraTemplate”的引用

我有一个 springboot 应用程序在其中连接到 cassandra DB 我的 pom xml parent gt
Apache Nifi/Cassandra - 如何将 CSV 加载到 Cassandra 表中

我每天都会收到多次传入的各种 CSV 文件存储来自传感器的时间序列数据这些传感器是传感器站的一部分每个 CSV 均以其来源的传感器站和传感器 ID 命名例如 station1 sensor2 csv 目前数据存储如下 gt cat
无法使用 datastax java 驱动程序通过 UDT 密钥从 cassandra 检索

我正在尝试使用用户定义的类型作为分区键将对象存储在 cassandra 中我正在使用 datastax java 驱动程序进行对象映射虽然我能够插入到数据库中但无法检索该对象如果我更改分区键以使用非 udt 例如文本我就能够保存和
Hector 在执行incrementCounter 后获取结果计数器值

我们正在执行以下操作来更新计数器的值现在我们想知道是否有一种简单的方法可以立即取回更新的计数器值 mutator incrementCounter rowid1 cf1 counter1 value Cassandra thrift AP

随机推荐

flutter-desktop-embedding 如何构建 exe 文件

in 颤动桌面嵌入 https github com google flutter desktop embedding 我是windows环境可以运行但是不知道如何构建exe文件我想知道该怎么办 If you flutter buil
对 JSONP 请求的工作原理感到困惑

我无法理解 jsonp 请求如何工作的细节我已经阅读了包括 jsonp 上的 wiki 在内的多个资料来源但对于在进行 jsonp 调用时回调实际上如何获取从服务器返回的函数仍然非常困惑例如在wiki中请求的来源设置为 src h
在不使用 GIT 的情况下将 WAR 文件部署到 Openshift？

我想将 WAR 文件上传到我的开放式换档帐户但这迫使我使用 GIT 或 GITHUB here https www openshift com kb kb e1088 how to deploy pre compiled java ap
从服务器获取数据时 Android 中的列表视图

我正在尝试将数据异步填充到列表视图中我正在从服务器检索数据作为 JSON 响应 MainActivity java public class MainActivity extends Activity url to make reques
Availability.h 类宏

是否可以有一个自定义可用性宏例如 OSX AVAILABLE STARTING 我需要它以同样的方式执行我只需要更改它的名称以及参数的版本和数量是的当然了 Objective C 是 C 的严格超集因此 C 宏非常适合您使用并且
如何预测 merMod 对象（lme4）的术语？

对于简单的glm对象我可以使用predict fit type terms 检索包含每个项的拟合值的矩阵相当于什么lmer resp glmer适配型号据我所知 predict merMod功能不支持type terms 相当于什么l
如何为 Outlook 创建“Internet 日历订阅”？

目前用户添加了一个新的互联网日历但它是 ICS 文件的一次性下载我希望用户单击一个按钮即可将其个人日历添加为 Outlook 订阅我想要自动更新互联网日历订阅 http office microsoft com en us ou
VBA-获取所有文件属性

我想获取文件夹中所有文件的属性我已经将其用于固定数量的属性我唯一关心的是找到最后一个属性的索引用于GetDetailsOf方法以便我可以列出所有属性下面的函数返回属性计数但不正确因为它基于最后一个非空属性名称然而有一些索引
TinyMCE 编辑器中的换行符在预览中显示额外的行，而不是在代码中

我将 BBCode 插件与 TinyMCE 结合使用发现预览和 HTML 代码之间的换行符显示不一样我在编辑器窗口中有以下几行 This is line one This is line three 第二行是空的当我在 HTML 中查
Flutter Web 调试正常，但构建 Web 显示空白页面

flutter doctor result Flutter Channel dev 1 21 0 1 0 pre on Microsoft Windows Version 10 0 19041 388 locale en US Androi
APK Openssl 版本

我很困惑我最近创建了 Google Play 应用程序但几个小时后我在控制台中收到消息指出我使用了错误的 OpenSSL 版本解压缩 p YourApp apk 字符串 grep OpenSSL gives OpenSSL 1 0
如何使用 cygwin 排序对第 n 列上的制表符分隔文件进行排序？

我有一个巨大的制表符分隔文件我想在其第二列上进行排序我需要使用制表符作为 cygwin 排序中的字段分隔符所以我需要这样的东西 sort t t k 2 2 in txt gt out txt 但命令提示符按字面意思计算 t 而不是作
Storm 和 Spring 4 集成

我有一个 Storm 应用程序原型它读取 STOMP 流并将输出存储在 HBase 上它可以工作但不是很灵活我正在尝试以与我们其他应用程序更一致的方式设置它但不太幸运地弄清楚当前与 Storm 的工作方式我们使用 spring
如何在 Forth 中比较两个字符串？

我可以在if声明还是我应该创建一个辅助布尔变量这是我到目前为止的代码顺便一提 IOX 是从用户那里获取输入 var compile VARIABLE complile lock compile var realPass compile
如何更改ggplot2中图例文本的大小？

我使用下面的数据和代码得到了这个图我希望能够更改图例文本的大小 A B M1 M3 我尝试使用 legend text element text size 0 5 但它没有改变有什么建议如何减小 legend text 的大小吗 Cod
解决“只能在类中初始化静态常量整型数据成员”编译错误

以下创建全局对象会导致编译错误 include stdafx h include
混合单独编译的对象

让我来上课吧class Drawable 它可以有许多成员成员函数父类也可以非常简单对于这个例子来说这并不重要另外假设它是某种 GUI 元素然后假设我有一个渲染引擎它作为 GCC 库提供engine a 该库包含clas
Laravel 5.0.* 中间件在处理路由之前从 url 中删除前缀区域设置

我正在寻找一种方法使所有应用程序路由都具有多个区域设置而不使用路由组这是因为我使用了外部扩展包这意味着路由在很多地方注册本质上我想让 foo bar 以及 en foo bar de foo bar es foo bar 等都被
查找 int 数组中的第一个重复项，java

这是我遇到的一个常见面试问题但我未能按照其要求的方式改进它 assume we have an int array int A we want to find the first duplicate entry 几乎每个人都会想到使用Ha
二级索引在 Cassandra 中如何工作？

假设我有一个列族 CREATE TABLE update audit scopeid bigint formid bigint time timestamp record link id bigint ipaddress text user

二级索引在 Cassandra 中如何工作？

二级索引在 Cassandra 中如何工作？ 的相关文章

随机推荐

热门标签

二级索引在 Cassandra 中如何工作？的相关文章