了解 Cassandra 的存储开销

2024-01-19

我一直在阅读本节 http://www.datastax.com/documentation/cassandra/2.0/cassandra/architecture/architecturePlanningUserData_t.html查阅 Cassandra 文档，发现以下内容有点令人费解：

确定柱开销：

常规总列大小 = 列名称大小 + 列值大小 + 15

计数器 - 到期总列大小 = 列名称大小 + 列值大小 + 23

Cassandra 中的每一列都会产生 15 个字节的开销。由于表中的每一行可以具有不同的列名称以及不同的列数，因此为每一列存储元数据。对于计数器列和过期列，您应该添加额外的 8 个字节（总共 23 个字节）。

我对 CQL3 定义的模式解释上述内容的方式，例如：

CREATE TABLE mykeyspace.mytable(
  id text,
  report_id text,
  subset_id text,
  report_date timestamp,
  start_date timestamp,
  end_date timestamp,
  subset_descr text,
  x int,
  y double,
  z int,
  PRIMARY KEY (id, report_id, subset_id)
);

是每一行将包含列名称的元数据，例如字符串report_date, start_date, end_date等及其类型以及数据。但是，我不清楚表中的每一行可以有不同的列名意味着什么。鉴于上面的模式完全是这样，这对我来说听起来是错误的static，也就是说，如果我尝试编写以下内容，Cassandra 2.0 肯定会抱怨：

INSERT INTO mykeyspace.mytable (id, report_id , subset_id, x, y, z, w) 
VALUES ( 'asd','qwe','rty',100,1.234,12, 123.123);

Bad Request: Unknown identifier w

现在在我看来，给定这个表模式，列名是固定的，因此元数据不需要每行存储。我猜测要么文档中的措辞已经过时（与 Cassandra 1.2 相同），要么我误解了这里工作的一些核心概念。

有人能澄清一下吗？底线：我是否需要担心列名称的长度？

我们一直在谨慎行事，并尽可能使用单个字符名称（因此上面的列实际上是i, r, s, dr, ds, de, sd，...），但它是如此非人类不可读，并且使用起来可能会令人困惑。

要弄清楚在这种情况下发生了什么，最简单的方法是检查数据的 sstable2json (cassandra/bin) 表示形式。这将向您显示最终实际保存在磁盘上的内容。

这是适合您情况的示例

 [
 {"key": "4b6579","columns": [
       ["rid1:ssid1:","",1401469033325000],
       ["rid1:ssid1:end_date","2004-10-03 00:00:00-0700",1401469033325000],
       ["rid1:ssid1:report_date","2004-10-03 00:00:00-0700",1401469033325000],
       ["rid1:ssid1:start_date","2004-10-03 00:00:00-0700",1401469033325000], 
       ["rid1:ssid1:subset_descr","descr",1401469033325000],
       ["rid1:ssid1:x","1",1401469033325000], 
       ["rid1:ssid1:y","5.5",1401469033325000],
       ["rid1:ssid1:z","1",1401469033325000],
       ["rid2:ssid2:","",1401469938599000],
       ["rid2:ssid2:end_date", "2004-10-03 00:00:00-0700",1401469938599000],
       ["rid2:ssid2:report_date","2004-10-03 00:00:00-0700",1401469938599000],
       ["rid2:ssid2:start_date","2004-10-03 00:00:00-0700",1401469938599000], 
       ["rid2:ssid2:subset_descr","descr",1401469938599000],
       ["rid2:ssid2:x","1",1401469938599000],
       ["rid2:ssid2:y","5.5",1401469938599000],
       ["rid2:ssid2:z","1",1401469938599000]
 }
 ]

正如您在上面所看到的，分区键的值每个分区（每个 sstable）保存一次，在这种情况下，列名根本不重要，因为它是隐式给定表的。集群列的列名也不存在，因为使用 C* 时，如果不指定键的所有部分，则不允许插入。

剩下的确实有列名，这是在对行进行部分更新时需要的，这样就可以在没有其余行信息的情况下保存它。您可以想象对一行中的单个列字段进行更新，以指示这是 C* 的哪个字段当前使用列名称，但有一些票证可以将其更改为较小的表示形式。https://issues.apache.org/jira/browse/CASSANDRA-4175 https://issues.apache.org/jira/browse/CASSANDRA-4175

为了生成这个

cqlsh
CREATE TABLE mykeyspace.mytable(   id text,   report_id text,   subset_id text,   report_date timestamp,   start_date timestamp,   end_date timestamp,   subset_descr text,   x int,   y double,   z int,   PRIMARY KEY (id, report_id, subset_id) );
INSERT INTO mykeyspace.mytable (id, report_id , subset_id , report_date , start_date , end_date , subset_descr ,x, y, z) VALUES ( 'Key', 'rid1','ssid1', '2004-10-03','2004-10-03','2004-10-03','descr',1,5.5,1);
INSERT INTO mykeyspace.mytable (id, report_id , subset_id , report_date , start_date , end_date , subset_descr ,x, y, z) VALUES ( 'Key', 'rid2','ssid2', '2004-10-03','2004-10-03','2004-10-03','descr',1,5.5,1);
exit;
nodetool flush
bin/sstable2json $DATA_DIR/mytable/mykeyspace-mytable-jb-1-Data.db

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

了解 Cassandra 的存储开销的相关文章

使用 cql 从 python 插入到 cassandra

我计划将数据插入到具有复合键的波纹管 CF 中 CREATE TABLE event attend event id int event type varchar event user id int PRIMARY KEY event id
如何使用 Spring Boot 和 Cassandra 将枚举持久化为序数？

我已添加到实体的枚举字段 CassandraType type DataType Name INT 然而在发送到 Cassandra 的语句中使用的不是枚举的序数而是字符串表示形式因此我收到以下错误 org springframewo
AWS Lambda 中的 Cassandra 数据库会话重用 (python)

我正在尝试为后续的 AWS Lambda 函数调用重用 Cassandra 集群会话我已经在 J ava 中成功实现了它但是在 python 中重用会话会导致 lambda 调用超时实际执行初始化的第一个调用是可以的从 CloudW
了解 cassandra 复制因子与一致性级别

我想澄清 Cassandra 中复制因子和一致性级别的基本概念如果有人可以回答以下问题我们将不胜感激 RF 复制因子 RC 读一致性 WC 写一致性 2 个 cassandra 节点例如 A B RF 1 RC ONE WC ONE
Cassandra - 使用主键列的任意子集按主键搜索

是否有可能在 Cassandra 中找到主键与所有主键字段的任意子集匹配的记录 Example 使用下面描述的表可以找到主键具有特定的记录type and name没有指定id or size CREATE TABLE playlists
安装cassandra时出错

我正在尝试按照此处的说明在 ubuntu 16 04 LTS 上安装 apache cassandra gt http docs datastax com en cassandra 3 x cassandra install install
如何读取cassandra数据而不区分大小写

我需要从 cassandra 获取数据而不区分大小写请帮我 Cassandra 中没有区分大小写的概念所有数据都存储为byte 所以它甚至不是一个字符串您可以制作自定义比较器参见API http wiki apache org ca
如果缺少一台主机，Datastax Java 驱动程序将无法连接

如果我没记错的话可以连接到 Cassandra 集群至少知道集群中的一个节点然后可以发现其他节点假设我有三个节点 1 2 和 3 并且我像这样连接到这些节点 Cluster builder addContactPoints 1 2
Cassandra cli：将十六进制值转换为人类可读的格式

我开始于卡桑德拉 questions tagged cassandra 当我跑步时list or get命令在cassandra cli questions tagged cassandra cli 我得到这样的结果 default use
如何在Cassandra中搜索不相等的二级索引？

我需要能够仅使用对二级索引执行搜索据我所知 Cassandra 至少需要一个等式索引子句因为它会迭代该等式索引的所有结果是否有任何技巧可以仅使用执行操作至少在概念上这是一个坏主意吗另外有人知道 Cassandra 是否有计
布隆过滤器在cassandra中的作用是什么？

从 Cassandra 文档的两个不同链接中我发现 link 1 http docs datastax com en cassandra 3 0 cassandra dml dmlHowDataWritten html 存储在内存中的结构
Cassandra 中的 SASI 索引似乎有一些错误

我刚刚开始在 Cassandra 3 7 0 上使用 SASI 索引遇到了一个问题我怀疑这是一个错误我几乎没有追踪到该错误出现的情况以下是我发现的使用 SASI 索引查询时它可能会错误地返回 0 行改变一点条件它又可以工作了
如何在 AWS Glue 中使用 Spark 包？

我想使用 DatastaxSpark Cassandra 连接器 https mvnrepository com artifact com datastax spark spark cassandra connector 2 12 2 5
Cassandra 集群 - 特定节点 - 特定表高丢弃突变

我在生产中的压缩策略是 LZ4 压缩但我将其修改为 Deflate 对于压缩更改我们必须使用 nodetool Upgradesstables 强制升级所有 sstable 上的压缩策略但是一旦在集群中的所有 5 个节点上完成了 U
无法在 Mac 上将 JanusGraph 连接到本地 Cassandra

我已在 Mac OS X 10 11 6 上安装并运行 Cassandra 3 11 1 跑步cqlsh在终端中打印以下消息 Connected to Test Cluster at 127 0 0 1 9042 cqlsh 5 0 1 C
Cassandra CQL 查询检查多个值

如何使用 Cassandra CQL 查询检查非主键字段的值是 A 还是 B 我使用的是Cassandra 2 0 1 这是表定义 CREATE TABLE my table my field text my field2 text PRI
如何使用 javascript 从 UUID v1 (TimeUUID) 中提取时间戳？

我使用 Cassandra DB 和 Nodejs 的 Helenus 模块来操作它我有一些包含 TimeUUID 列的行如何在javascript中从TimeUUID获取时间戳这个库 UUID 至今 https github com
无法使用 datastax java 驱动程序通过 UDT 密钥从 cassandra 检索

我正在尝试使用用户定义的类型作为分区键将对象存储在 cassandra 中我正在使用 datastax java 驱动程序进行对象映射虽然我能够插入到数据库中但无法检索该对象如果我更改分区键以使用非 udt 例如文本我就能够保存和
Cassandra data stax 查询生成器更新

我正在尝试编写一个简单的更新查询更新表 set col1 val1 col2 val2 where col3 val3 您能否提供一个使用查询生成器 API 在 Cassandra 中编写简单 UPDATE 的示例试试这个 v1 x Q
Cassandra CAS INSERT 对于具有毫秒延迟的请求超时

我们正在对 cassandra 集群 3 个节点复制因子 3 进行负载测试并开始偶尔接收到写入超时异常对于一张表上的 CAS 插入操作 CREATE TABLE users by identity account ascii domai

随机推荐

如何用二叉索引树（BIT）求一定长度的递增子序列的总数

如何使用二叉索引树 BIT 找到一定长度的递增子序列的总数其实这是一个问题Spoj在线评委 http www spoj com problems INCSEQ Example假设我有一个数组1 2 2 10 长度为 3 的递增子序列为1
如何取消对具有自定义 FocusNode 的 TextField 的聚焦？

我知道不集中注意力的一般答案是使用这段代码 FocusScope of context requestFocus new FocusNode 但是当 TextField 有自定义 focusNode 时这段代码似乎不起作用 SystemC
Docker 容器与主机共享剪贴板

我在谷歌上搜索了一下但没有得到有用的结果我正在完成 docker 化vim一个常见的问题出现了它的容器不会与主机共享剪贴板我习惯于构建 vim clipboard 并且能够拉出文本并将其提供给主机或者在主机中复制文本并粘贴到 vi
检查HDFS目录大小的方法？

I know du sh在常见的 Linux 文件系统中但是如何使用 HDFS 做到这一点呢 0 20 203 之前并在 2 6 0 中正式弃用 hadoop fs dus directory 自从0 20 203 http hadoo
GameScene.sks 不推荐用于游戏构建吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案在我见过的几乎所有初学者 SpriteKit 游戏制作教程中人们都删除了 GameScene sks 而没有真正的解释构建简单的非游戏应用程
用于谷歌地图 v2 的谷歌播放服务库中隐藏的 build.xml？

我相信 eclipse 曾经发生过崩溃并且发生了一些奇怪的事情我重新开始了这个项目并从头开始做了我能想到的一切代码和配置文件看起来很完美我已经通过命令行更新了项目 android update project name GPSTe
我的处理器上 C 语言中 int、short 和其他数据类型的范围？

我正在读一本旧的 C 书据此 int 范围值从 32768 到 32767 由于我的机器可以容纳比该限制更大的 int 我如何找到特定于我的机器的这些数据类型 short int long double float 的范围有什么方法吗
DocuSign 错误：此帐户缺乏足够的权限。指定强制收件人时需要会话内权限

当我向 DocuSign 发送 SOAP 请求时它显示错误此帐户缺乏足够的权限指定强制收件人时需要会话内权限完整响应 XML 为
如何使用 AVCaptureVideoDataOutput 保存视频（mp4 格式）？

我已经设置了 AVCapture 会话的输入和输出以及委托 void captureOutput AVCaptureOutput captureOutput didOutputSampleBuffer CMSampleBufferRef s
卡片重叠颤动中的凸起按钮

friends I am thinking to make this type of view but I can t able to set the button overlapping like the given image I am
Angular ui bootstrap $uibModalInstance 分解单元测试

通过使用 uibModal服务打开模态窗口我们需要注入 uibModalInstance在模态控制器中关闭或关闭模态窗口此注入会破坏我的单元测试脚本 js angular module demo ui bootstrap contro
REST API - 包括相关对象详细信息或仅包含 ID

更好的设计实践是什么如果我有对象 A 并且它包含一些相关对象例如我有一个汽车对象并且它有多种类型我应该根据要求api example org cars 1仅使用 ID 来响应这些资源因此如果有人需要有关这些资源的详细信息则需要在
如何在 Razor 页面中获取 ASP.NET 身份验证票证过期？

我将 Identityserver4 与 ASP NET Identity 结合使用并使用配置为 SlidingExpiration true 和 ExpireTimeSpan 20 分钟的 cookie 我想在用户即将超时时向他们提供警
IIS Express 7.5 wwwroot 目录在哪里

使用 Windows 7 我已经安装了 IIS Express 7 5 但我找不到wwwroot我系统上的目录没有 inetpub我的 C 盘上也有文件夹您能否让我知道在哪里可以放置要运行的文件例如 hello aspx 文件 Th
如何检索当前为微调器设置的阵列适配器？安卓操作系统、机器人

希望创建一个菜单切换器在旋转器的两个可能的数组之间切换例如如果微调器设置为显示数组 A 那么当我按下此菜单按钮时我希望将微调器设置为数组 B 如果我再次按下它我希望将其设置回数组 A 我可以处理 if then 语句等但如何调用
子网格缓存或阻止子网格数据被删除 (jqGrid)

有没有办法强制 jqGrid 在切换行时不删除子网格数据我当前加载数据网格的过程如下 1 设置主网格使用稍后可以使用的 ID 以编程方式设置子网格 2 通过json将数据本地加载到主网格中 3 通过json将数据添加到本地子网格由于当
Wicket 和 CSS 资源

我环顾四周找不到将我自己的 CSS 添加到 Wicket 网站项目的傻瓜指南但在开始之前我对正确的 java 开发还很陌生所以当我说傻瓜指南时我是认真的非常感谢这里对我简单明了的解释我从这里开始阅读本指南 http wic
Spring Integration - 变压器和标头丰富器

我的情况是这样的我需要根据邮政编码将消息路由到三个不同的商店为此我需要查看邮件标头以查找客户的邮政编码并执行以下计算 if zip lt 5000 store SJ else if zip gt 6000 store JY else
为什么 Clojure 的多方法比“if”或“case”语句更好

我花了一些时间试图理解 Clojure 多方法据我了解主要的专业多方法论点是它们的灵活性但是我对为什么多方法比简单的 if 或 case 语句更好的争论感到困惑请有人解释一下多态性和过度美化的案例陈述之间的界限在哪里编辑
了解 Cassandra 的存储开销

我一直在阅读本节 http www datastax com documentation cassandra 2 0 cassandra architecture architecturePlanningUserData t html查阅

了解 Cassandra 的存储开销

了解 Cassandra 的存储开销 的相关文章

随机推荐

热门标签

了解 Cassandra 的存储开销的相关文章