设计 Cassandra 数据模型的最佳实践是什么？ [关闭]

2024-05-13

以及需要避免哪些陷阱？您有任何交易中断吗？例如，我听说导出/导入 Cassandra 数据非常困难，这让我想知道这是否会妨碍将生产数据同步到开发环境。

顺便说一句，很难找到关于 Cassandra 的好的教程，这是我唯一的教程http://arin.me/code/wtf-is-a-supercolumn-cassandra-data-model http://arin.me/code/wtf-is-a-supercolumn-cassandra-data-model还是很基础的。

Thanks.

对我来说，最重要的是决定是使用 OrderedPartitioner 还是 RandomPartitioner。

如果您使用 RandomPartitioner，则无法进行范围扫描。这意味着您必须知道任何活动的确切密钥，包括清理旧数据。

因此，如果您有很多流失，除非您有某种神奇的方法可以准确地知道您插入了哪些键，否则使用随机分区器您很容易“丢失”东西，这会导致磁盘空间泄漏，并最终会导致磁盘空间泄漏。消耗所有存储空间。

另一方面，您可以询问有序分区程序“A 和 B 之间的列族 X 中有哪些键”？ - 它会告诉你。然后您可以清理它们。

然而，也有一个缺点。由于 Cassandra 不进行自动负载平衡，因此如果您使用有序分区器，您的所有数据很可能最终都会出现在一两个节点中，而不会出现在其他节点中，这意味着您将浪费资源。

我对此没有任何简单的答案，除了在某些情况下您可以通过在键的开头放置一个短哈希值（您可以从其他数据源轻松枚举的值）来获得“两全其美” - 例如例如，用户 ID 的 16 位十六进制哈希值 - 将为您提供 4 个十六进制数字，后跟您真正想要使用的密钥。

然后，如果您有最近删除的用户列表，您只需对他们的 ID 进行哈希处理并进行范围扫描即可清理与他们相关的任何内容。

The next tricky bit is secondary indexes - Cassandra doesn't have any - so if you need to look up X by Y, you need to insert the data under both keys, or have a pointer. Likewise, these pointers may need to be cleaned up when the thing they point to doesn't exist, but there's no easy way of querying stuff on this basis, so your app needs to Just Remember.

应用程序错误可能会留下您忘记的孤立键，并且您将无法轻松检测它们，除非您编写一些垃圾收集器来定期扫描数据库中的每个键（这将需要一段时间 -但您可以分块进行）以检查不再需要的内容。

这些都不是基于实际使用情况，只是我在研究过程中发现的。我们不在生产中使用 Cassandra。

编辑：Cassandra 现在在主干中有二级索引。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

设计 Cassandra 数据模型的最佳实践是什么？ [关闭] 的相关文章

用于标签搜索的数据存储解决方案

我已经按照预先计算的分数订购了数百万件商品每个项目都有许多布尔属性假设总共有大约一万个可能的属性每个项目有十几个我希望能够请求实时几毫秒给定任意属性组合的前 n 个项目您会推荐什么解决方案我正在寻找可扩展性极强的东西我们目
错误：无法连接到 cassandra 服务器。未配置的表

我正在尝试使用这个简单的代码通过 python 的 cassandra driver 连接到在本地桌面上运行的 cassandra from cassandra cluster import Cluster cluster Cluster
数据库分区 - 水平与垂直 - 规范化和行拆分之间的区别？

我试图理解不同的概念数据库分区这就是我的理解水平分区分片将表拆分为不同的表其中将包含初始表中的行的子集如果按大陆拆分用户表我见过很多这样的示例例如北美的子表欧洲的另一个子表 ETC 每个分区位于不同的物理位置理解机器据
Cassandra修复导致节点超时

我们使用具有 5 个节点的 Cassandra 3 10 1 集群每个节点有 8 个核心和 23Gi 内存全部位于同一个 DC 中复制因子 2 一致性级别 2 最近在大约每周进行一次的计划修复期间来自一个节点的查询出现多次超时在
parent_id 是外键（自引用）并且为 null？

浏览 Bill Karwin 的书 SQL Antipatterns 第 3 章 Naive Trees 邻接表父子关系有一个注释表的示例 CREATE TABLE Comments comment id SERIAL PRIMARY
NoSQL（MongoDB）与 Lucene（或 Solr）作为数据库[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案随着基于文档数据库的 NoSQL 运动的发展我最近关注了 MongoDB 我注意到如何将项目视为文档就像 Lucene 以及 Solr 用
Cassandra cqlsh - 如何显示时间戳列的微秒/毫秒？

我正在插入带有时间戳列的 Cassandra 表我的数据具有微秒精度因此时间数据字符串如下所示 2015 02 16T18 00 03 234 00 00 但是在 cqlsh 中当我运行选择查询时微秒数据不会显示我只能看到精确到
实时数据和草稿数据的数据库模型

我一直在考虑在数据库中保存实时数据集和草稿数据集的最佳方法实际版本会显示在网站上草稿版本会一直进行下去直到准备好上线为止该模型是关系模型由许多表组成我目前的方法是拥有 2 个数据库一个用于草稿一个用于实时当您将数据提升
将 Datastax Enterprise Cassandra 迁移到 Apache Cassandra

我们目前使用的是 DSE 4 8 和 5 12 我们想迁移到 apache cassandra 因为我们不使用 Spark 或搜索所以想节省一些钱迁移到 apache 这可以在不停机的情况下实现吗我看到 sstableloader 以其
关于 Cassandra 与 MySQL 的一些建议

几天前我在这里问了一个问题得到了一些非常好的答案我正在考虑做一个带有个人资料个人简介等的facebook风格的网站并询问我是否应该使用mysql 答案是使用Cassandra 因为好多了我只是问这是每个人都会建议的只是我对mys
数据库设计：类别在自己的表中？

我正在将几个数据库重新设计成一个综合数据库并且我注意到旧数据库的先前设计者喜欢将类别存储在自己的表中例如假设有一个表boats bid integer bname string color integer 并且在应用程序中有一个下拉框
CAP 定理 - 可用性和分区容错性

当我尝试理解CAP中的可用性 A 和分区容错性 P 时我发现很难理解各种文章的解释我感觉A和P可以在一起我知道事实并非如此这就是为什么我无法理解简单解释一下 A和P是什么以及它们之间的区别一致性意味着整个集群中的数据是相同的
国外收藏的查找和排序

所以我有一个收藏users 并且此集合中的每个文档以及其他属性都有另一个集合中文档的 id 数组 workouts 集合中的每个文档workouts有一个名为date 这就是我想要得到的对于特定用户我想要获取属于该用户的锻炼的 work
Hector (Cassandra) 删除异常

当我尝试删除时使用 hector cassandra 客户端它会删除列但将行键留在后面有谁知道为什么以及如何删除该行键使用 Cassandra 时这是预期的由于它通过写入逻辑删除来删除因此数据仍然存在直到下一次压缩最终它会
是否需要连续编号？

我正在开发一个 winform NET 应用程序其中包括订单发票服务订单票务等这些实体在对其 ID 进行编号时是否必须按顺序排列国际海事组织没有以一个订单为例它只有通过业务层才有效在此过程中可能已经创建了另一个订单批准
Cassandra 允许过滤

我有一个如下表 CREATE TABLE test day int id varchar start int action varchar PRIMARY KEY day start id 我想运行这个查询 Select from test
允许在cql中进行过滤、数据建模

我目前正在使用和研究 cassandra 中的数据建模实践到目前为止我知道您需要基于执行的查询进行数据建模然而多个select需求使得数据建模变得更加困难或不可能在一张表上处理它所以当你无法在1个表上处理这些要求时你需要插入2
Cassandra 与 ZooKeeper 的事务 - 这有效吗？

我正在尝试在 ZooKeeper 的帮助下为 Cassandra 实现一个事务系统由于我认为我在数据库实现方面没有足够的经验所以我想知道我的想法原则上是否可行或者是否有任何重大缺陷以下是步骤的高级描述识别所有要编辑的行键和列
动态表单字段验证的数据库设计

在我的应用程序中我允许用户创建一个包含他们想要的任何 HTML 表单字段例如文本输入文本区域选择等的表单我想让用户能够为每个字段定义 0 个或多个累积验证规则最多可能有 25 个不同的验证规则我应该如何建模这是一个潜在的解
在关系数据库中存储 1:1 用户关系的最佳方式

存储用户关系的最佳方式是什么例如友谊在关系中必须是双向的你是我的朋友因此我是你的朋友数据库例如MYSql 我可以想到两种方法每当一个用户与另一个用户成为好友时我都会向数据库添加两行其中 A 行由发起用户的用户 ID 和下一

随机推荐

Flask-Mail - 基于 Flask-Cookiecutter 异步发送电子邮件

我的烧瓶项目基于烧瓶饼干切割机 https github com sloria cookiecutter flask我需要异步发送电子邮件发送电子邮件的功能由以下配置米格尔的教程 https blog miguelgrinberg com
Puppeteer 无法在 VPS (DigitalOcean) 上工作

我在水滴中数字海洋 https www digitalocean com 我收到这个错误 node 5549 UnhandledPromiseRejectionWarning TimeoutError Navigation Timeout
AngularJS：ng-show 与 display:none

我有一个用例我必须使用 CSS 默认隐藏 HTML 元素如下所示 HTML div class item div CSS item display none 但是我需要在页面加载后使用 ng show 切换元素的可见性如下所示 di
如何拦截 .Net 中第三方库对非虚拟方法的调用？

我认为我需要的是 net 人们称之为透明动态代理的东西但到目前为止我所看到的所有实现 Castle DynamicProxy Spring NET AOP 等都要求我至少执行以下操作之一将拦截的方法声明为虚拟方法包装类并创建包装
如何以编程方式启用小米应用程序的自动启动

我想知道小米是否可以提供任何应用程序的后台服务我的应用程序中有需要始终在后台运行的服务在除小米之外的所有设备中都工作正常如何以编程方式完成也适用于小米 oppo vivo 和 oneplus 手机 try Intent intent
删除对象时删除嵌套字段中的索引

我仍在使用 Firebase 这次我有一个与删除对象相关的问题我有如下结构 users UsErId1 name Jack email email protected cdn cgi l email protection UsErId2
如何找到 httpd.conf 文件所在的位置？

如何找到 apache PHP 上 httpd conf 文件的路径我不知道我的脚本是否会在Windows apache或Linux中运行我需要知道在哪里可以找到这个文件以便从那里找到参数谢谢我认为它没有接触 PHP 跑步http
如何列出表中的所有列？

对于各种流行的数据库系统如何列出表中的所有列对于 MySQL 请使用 DESCRIBE name of table 只要您使用 SQL Plus 或 Oracle 的 SQL Developer 这也适用于 Oracle
如何修改查询集并将其另存为新对象？

我需要查询特定模型的一组对象更改单个属性列帐户然后将整个查询集的对象保存为新对象行换句话说我想复制对象并在重复项上更改单个属性帐户我基本上是创建一个新帐户然后检查每个模型并将以前帐户的对象复制到新帐户因此我将使用不同
Android 设备选择器在目标列中显示红色 X

我最近构建了一个 Android 应用程序 minSdkVersion 为 7 targetSdkVersion 为 10 我现在正在使应用程序兼容平板电脑并添加操作栏因此我将 targetSdkVersion 更新为 15 并在项目属
self.assertRaises 作为上下文管理器，但 msg 参数未按预期工作

请检查以下代码 import unittest CORRECT MESSAGE Correct message WRONG MESSAGE Wrong message def fn raise KeyError CORRECT MESSAG
将 System.Drawing.Image 转换为 System.Windows.Media.ImageSource 但没有结果

我想在我的 WPF 应用程序中将 Image 转换为 ImageSource 我使用正常工作的 Code128 库已在 WinForms 应用程序中检查下面的函数返回具有适当大小的 ImageSource 但没有任何内容可见 priva
MVC6 中的自定义选择性 404 页面

我正在寻求帮助我们可以在 ASP NET 5 MVC6 中拥有自定义 Error404 页面我最接近的是使用 app UseStatusCodePagesWithReExecute Error 0 在 Startup cs 配置方法中
当外部更改文件时，让 PyCharm 发出警报以重新加载文件

当使用另一个程序修改文件后切换回 PyCharm 中打开的文件时 PyCharm 不会立即弹出一条消息询问您是要从磁盘重新加载文件还是坚持使用内存中的版本与我的其他编辑器不同已经习惯了它所做的只是在顶部显示一个小栏上面有一个微小的
即使我没有#include ，为什么仍然可以使用 std::max 和 std::min ？

include
如何在海龟图形中将多个按键绑定在一起？

我正在尝试制作一个连接点的 python 游戏我希望游戏记录 2 次按钮按下操作示例如果用户按向上和向右箭头键乌龟将向东北方向移动 45 度这是我的代码 import turtle flynn turtle Turtle win
具有单独 work_tree 的 Git 子模块

我按照本页上的教程使通过 Git 部署我的网站变得简单 http toroid org ams git website howto http toroid org ams git website howto 到目前为止一切都很好但是我最近
同一模型之间的两个 has_many 链接

I have users其中有products通过 habtm 链接该链接正在运行我想添加一个链接user模型和product模型以跟踪creator该产品的当然谁并不总是拥有该产品但是当我写在我的user and produc
如何使用 Qtimer 添加 1 秒延迟

我目前有一个方法如下 void SomeMethod int a Delay for one sec timer gt start 1000 After one sec SomeOtherFunction a 这个方法实际上是一个附加到信号
设计 Cassandra 数据模型的最佳实践是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案以及需要避免哪些陷阱您有任何交易中断吗例如我听说导出导入 Cassandra 数据非常困难这让我想知道这是否会妨碍将生产数据

设计 Cassandra 数据模型的最佳实践是什么？ [关闭]

设计 Cassandra 数据模型的最佳实践是什么？ [关闭] 的相关文章

随机推荐

热门标签