Cassandra 中的高基数和低基数

2023-11-23

我不断遇到这些术语：high cardinality and low cardinality in Cassandra.

我不明白它们到底是什么意思。它们对查询有什么影响以及首选是什么。请举例说明，因为这样很容易理解。

X 的基数只不过是组成 X 的元素的数量。在 Cassandra 中，分区键基数对于分区数据非常重要。

由于分区键负责数据在集群中的分布，因此选择低基数键可能会导致数据不分布的情况。

想象一下你有一个集群20存储注释的节点——复制因子（RF）是2。每个评论都有自己的投票，从 1 到 5。现在，由于您希望通过投票轻松检索评论，因此您可能会选择投票作为分区键。

CREATE TABLE comments(vote int, content text, id uuid, PRIMARY KEY(vote, id));

在这种情况下，负责数据分发的唯一键是 vote，它的基数非常低，因为它只能包含 5 个值 (1,2,3,4,5)。这意味着，在best情况 5 个不同的节点将是 5 个不同分区的所有者（即“所有投票为 1 的评论”...“所有投票为 5 的评论”），并且再次处于最佳状态情况，当 RF 为 2 时，10 个不同的节点将保存您的数据。正如您所看到的，您有一个 20 个节点的集群，在最佳情况下使用率不会超过 50%。

数据分布非常重要，这就是为什么分区键基数很重要

哈特哈，卡洛

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

cassandra20

Cardinality

Cassandra 中的高基数和低基数的相关文章

elasticsearch去重计数（distinct）

如果需要针对ES索引统计某个字段上出现的不同值的个数时可以使用cardinality聚合查询完成 GET urlAttributes search search type count aggs
卡桑德拉读取超时

我正在从 cassandra 2 0 中提取大量数据但不幸的是遇到超时异常我的桌子 CREATE KEYSPACE StatisticsKeyspace WITH REPLICATION class SimpleStrategy rep
Cassandra 中的高基数和低基数

我不断遇到这些术语 high cardinality and low cardinality in Cassandra 我不明白它们到底是什么意思它们对查询有什么影响以及首选是什么请举例说明因为这样很容易理解 X 的基数只不过是组成
Cassandra控制SSTable大小

有没有办法控制 SSTable 的最大大小例如 100 MB 这样当 CF 实际上有超过 100MB 的数据时 Cassandra 就会创建下一个 SSTable 不幸的是答案并不那么简单 SSTable 的大小将受到压缩策略的影响并
即使无法满足一致性，Cassandra 是否会写入节点（已启动）？

Cassandra 文档中的以下声明是我怀疑的原因例如如果使用复制因子为 3 的 QUORUM 写入一致性级别 Cassandra 会将写入复制到集群中的所有节点并等待两个节点的确认如果写入在一个节点上失败但在另一个节点上成功 C
cassandra 2.2 CQl Shell 支持 python 2.7

尝试启动 cql Shell 时出现错误 gt cqlsh CQL Shell supports only Python 2 7 gt 我已经安装了python2 7但它仍然给出相同的错误我必须设置一些路径吗我已经使用此命令从 data
Cassandra CQL 选择查询不返回以时间戳作为 clusterkey 的记录

Cassandra CQL 使用复合键和簇键创建的表当我尝试执行 select from 分区键时我能够检索所有数据并且它也适用于关系运算符但是当我使用等于运算符和正确的值查询特定的簇键时它返回 0 行 Table CREAT
备份 cassandra 集群的最佳实践是什么？

我有一个 cassandra 集群在多个数据中心有大约 20 个节点我想备份 cassandra 数据库我希望即使现有集群中的每个节点同时被流星击中也可以将备份恢复到新集群为了能够从头开始恢复 cassandra 数据库我到底需
Cassandra 中写入总是比读取快吗？

我在听这次演讲 https www youtube com watch v zyZ35YyT 8Cassandra 中的数据建模演讲者的总体说法是 Cassandra 中的写入速度比读取速度快这种情况总是正确的吗如果是这样为什么尽管
如何将 Cassandra (>2.0) JVM 堆大小设置为 8GB？

如何将 Cassandra gt 2 0 JVM 堆大小设置为 8GB 当我输入时free m它给了我以下内容如何将 Cassandra JVM 堆大小设置为 8GB total used free shared buffers cach
实体关系 - 弱实体能否作为“一”参与“一对多”关系

通过以下实体关系结构我很难弄清楚 LOAN 和 ITEM 实体之间的关系是否有效 LOAN 的弱实体使用部分键 loan dateLeant 以及来自 CUSTOMER 和 ITEM 的主键来形成 LOAN 主键然而 LOAN 与 IT
了解 Cassandra 的存储开销

我一直在阅读本节 http www datastax com documentation cassandra 2 0 cassandra architecture architecturePlanningUserData t html查阅
在 Cassandra 列中存储 JSON 字符串的有效方法？

卡桑德拉新手问题我正在使用 REST 调用从社交网站收集一些数据所以我最终得到了 JSON 格式的数据 JSON 只是我表中的列之一我试图找出存储 JSON 字符串的最佳实践首先我想到使用map类型但 JSON 包含字符串数字
cassandra 中列的默认排序顺序？

我正在阅读教程其中讲师说行中列的默认顺序是UTF8 tye 但他没有进一步谈及这一点我不明白这是什么意思特别是如果我的列是不同类型的例如int timestamp etc 另外我如何将列上的排序顺序指定为 UTF8 类型以外的其
参数的存在数据库基数

我是exist db 和XQuery 的新手在exist db中我有这个站点地图目录 registranten 包含目录 data 带有xml文件和两个文件 regBasic xql 和 regSearch xql 我正在尝试使用脚
二级索引在 Cassandra 中如何工作？

假设我有一个列族 CREATE TABLE update audit scopeid bigint formid bigint time timestamp record link id bigint ipaddress text user
如何使用 DataStax Java 驱动程序设置 Cassandra 客户端到节点加密？

我已在 Cassandra 集群上设置了节点到节点加密现在我想设置客户端到节点根据本文档 http www datastax com documentation cassandra 2 0 cassandra security secu
检查 Cassandra 中收集列的当前 TTL

假设我有一个具有以下架构的列族 CREATE TABLE users user id timeuuid name varchar last name varchar children list phone numbers map PRIMA
Cassandra 查询失败：尝试查询的所有主机均失败（未尝试任何主机）

我无法对 Cassandra 节点进行查询我能够连接到集群并进行连接但是在执行查询时它失败了 Caused by com datastax driver core exceptions NoHostAvailableExceptio
Cassandra - 有没有办法限制异步查询的数量？

我想知道是否有办法限制 cassandra java 驱动程序同时执行的查询数量目前我执行了很多查询如下所示 PreparedStatement stmt session prepare SELECT FROM users WHERE

随机推荐

访问多维数组的元素是否越界未定义行为？

请原谅这个令人困惑的问题标题但我不确定如何更清楚地表达它在 C 语言中越界访问数组被归类为未定义行为然而数组元素保证在内存中连续排列并且数组下标运算符是指针算术的语法糖例如x 3 x 3 因此我个人希望下面的代码的行为是明确
Hash::make('password') 每次调用返回不同的结果

所以标题基本上描述了我的问题我的 Hash make 疯了我已经创建了一个带有哈希密码的用户表但我无法让 Laravel 接受我的凭据我认为问题出在 Hash make 中因此测试这段代码 Route get function
如何复制word文档的内容？

我想编写一个程序从 Word 文档复制文本并将其粘贴到另一个文档我正在尝试使用python docx图书馆我可以使用以下代码来做到这一点但它不会复制bold italic 下划线或彩色部分原样仅包含其文本 from docx im
Rails 5 db：重置不起作用

我想重置 Rails 5 项目的数据库但是rails db reset命令不起作用错误信息 Permission denied unlink internal C sites5 dawnrebirth db development sq
在 div 中包围希伯来语和英语文本

我正在尝试在段落中的希伯来语和英语句子周围添加跨度标签例如那么到底怎么样了会变成 span so span span span span all whats up span span span 我一直在尝试使用正则表达式但它只是删
将html模板文件合并到一个JS文件中

我有 HTML 模板文件下划线模板语法这些文件以 HTML 格式保存因此很容易编辑 IDE 语法突出显示我不想用ajax获取它们而是将它们全部组合起来并将它们包含为js file 使用 GULP 作为我的任务运行程序我希望它能以
如何限制通过 cin 输入的字符数？

我希望限制用户可以输入的字符数使用cin 例如我可能希望将其限制为两个字符我该怎么做我的代码如下所示 cin gt gt var 您可以使用setw cin gt gt setw 2 gt gt var http www cplus
NSPredicate iPhone 3.2 SDK核心数据“IN子句”NSInvalidArgumentException异常

我有一个收藏Calendar对象并希望通过它们来查询它们service id财产我在 iPhone 3 2 SDK 上使用 Core Data 和 sqlite calendars是一个 NSArray 结果NSFetchRequest
谁最终决定什么是通用类型？

我有这个功能 public static T2 MyFunc
在 Plone 构建设置中查找需求规格

我有一个 Plone 网站大约 4 2 4 从version txt在根目录中我想更新到最新版本我发现这个操作方法截至目前 4 3 4 我继承了过多的固定版本这些版本没有记录并且可能已经过时当评论我的versions cfg u
如何设置 JSplitPane-Divider 折叠/展开状态？

我有一个带有 JSplitPane 的 JFrame 它是 OneTouchExpandable 我想记住 JFrame 上 JSplitPane 的最后一个分隔符位置并在重新打开 JFrame 时恢复位置它工作得很好但如果用户通过
使用存储库的工作单元模式中的依赖项注入

我想创建一个工作单元类以类似的方式包装存储库this 我遇到的问题是尝试通过用 IRepository 接口替换示例中的通用存储库来实现依赖项注入在链接文章的 uow 中他们使用 getter 来检查存储库是否已实例化如果没有则实例
npm install puppeteer 显示权限被拒绝错误

我无法安装puppeteer作为项目依赖项我尝试重新安装节点有人知道如何解决这个问题吗运行 Ubuntu 17 10 x64 sudo apt get purge nodejs curl sL https deb nodesource
新手势 - 从左向右滑动 - 作为旧应用程序中 UINavigationController 中“后退”按钮的快捷方式

iOS 7 采用了一种新手势即在屏幕上从左向右滑动作为 UINavigationController 中后退按钮的快捷方式我的应用程序似乎没有免费获取此行为我需要做什么才能让我的 iOS 应用程序在 Xcode 4 6 3 中为
Android Camera2 API 显示处理后的预览图像

新的 Camera 2 API 与旧的有很大不同向管道的用户部分显示操纵的相机帧让我感到困惑我知道有很好的解释使用 Android L 和 Camera2 API 处理相机预览图像数据但显示帧仍然不清楚我的问题是在经过一些处理后在
用传单绘制特定国家的地图

我想使用该包leaflet用R绘制特定国家的地图如意大利西班牙等我用函数检查了基本示例setView 我尝试为纬度和经度的 arg 给出两个值的向量 m lt leaflet gt addTiles gt Add default Op
NUMA 获取当前节点/核心

我在 Linux 上使用 libnuma 我的线程应该知道它们正在运行的节点核心是否有可能以某种方式获取当前线程的节点核心我已经浏览了文档但没有找到这样的功能我找到了这个解决方案 include
限制完成时的 IntelliJ IDEA 导入建议

当我输入需要导入的类的名称时 IntelliJ 会亲切地弹出一个建议列表然而大多数时候这些建议是我永远不想导入的东西尤其是偶然的比如java awt 有没有办法防止我永远不会导入的包出现在完成列表中我已经搜索了这些选项但没有找
使用 MPI_Bcast 进行 MPI 通信

我正在尝试使用 MPI Bcast 将消息从根节点广播到所有其他节点然而每当我运行这个程序时它总是在开始时挂起有人知道这是怎么回事吗 include
Cassandra 中的高基数和低基数

我不断遇到这些术语 high cardinality and low cardinality in Cassandra 我不明白它们到底是什么意思它们对查询有什么影响以及首选是什么请举例说明因为这样很容易理解 X 的基数只不过是组成

Cassandra 中的高基数和低基数

Cassandra 中的高基数和低基数 的相关文章

随机推荐

热门标签

Cassandra 中的高基数和低基数的相关文章