cassandra 分片和复制

2023-11-27

我是 Cassandra 的新手，不过本文解释分片和复制，我陷入了一个困境 -

我的本地计算机上配置了一个包含 6 个 Cassandra 节点的集群。我创建一个新的键空间“TestKeySpace”，复制因子为 6，并在键空间“employee”中创建一个表，主键是名为 RID 的自动递增编号。我无法理解这些数据将如何分区和复制。我想知道的是，由于我将复制因子保持为 6，并且数据将分布在多个节点上，那么每个节点是否将具有与其他节点完全相同的数据？

如果我的集群具有以下配置怎么办 -

    Number of nodes - 6 (n1, n2 ,n3, n4, n5 and n6).
    replication_factor - 3.

我如何确定对于任何一个节点（假设为 n1），数据被复制到哪两个其他节点以及哪些其他节点表现为不同的分片。

提前致谢。

问候，维巴夫

PS - 如果有人否决了这个问题，请在评论中提及出了什么问题。

我将用简单的例子来解释这一点。 cassandra 中的键空间相当于 RDBMS 中的数据库模式名称。

首先创建一个键空间 -

CREATE KEYSPACE MYKEYSPACE WITH REPLICATION = { 
 'class' : 'SimpleStrategy', 
 'replication_factor' : 3 
};

让我们创建一个简单的表 -

CREATE TABLE USER_BY_USERID(
 userid int,
 name text,
 email text,
 PRIMARY KEY(userid, name)
) WITH CLUSTERING ORDER BY(name  DESC);

在这个例子中，userid是您的分区键，名称是集群键。分区也称为行键，该键决定行将保存在哪个节点上。

你的第一个问题——

我无法理解这些数据将如何分区？

数据将根据您的分区键进行分区。默认情况下 C* 使用Murmur3partitioner。您可以在 cassandra.yaml 配置文件中更改分区程序。分区如何发生也取决于您的配置。您可以为每个节点指定令牌范围，例如查看下面的 cassandra.yaml 配置文件。我已经从你的问题中指定了 6 个节点。

节点 0 的 cassandra.yaml：

cluster_name: 'MyCluster'
initial_token: 0
seed_provider:
    - seeds:  "198.211.xxx.0"
listen_address: 198.211.xxx.0
rpc_address: 0.0.0.0
endpoint_snitch: RackInferringSnitch

节点 1 的 cassandra.yaml：

cluster_name: 'MyCluster'
initial_token: 3074457345618258602
seed_provider:
    - seeds:  "198.211.xxx.0"
listen_address: 192.241.xxx.0
rpc_address: 0.0.0.0
endpoint_snitch: RackInferringSnitch

节点 2 的 cassandra.yaml：

cluster_name: 'MyCluster'
initial_token: 6148914691236517205
seed_provider:
    - seeds:  "198.211.xxx.0"
listen_address: 37.139.xxx.0
rpc_address: 0.0.0.0
endpoint_snitch: RackInferringSnitch

......节点3 ......节点4 ......

节点 5 的 cassandra.yaml：

cluster_name: 'MyCluster'
initial_token: {some large number}
seed_provider:
    - seeds:  "198.211.xxx.0"
listen_address: 37.139.xxx.0
rpc_address: 0.0.0.0
endpoint_snitch: RackInferringSnitch

让我们看一下这个插入语句 -

INSERT INTO USER_BY_USERID VALUES(
 1,
 "Darth Veder",
 "[email protected]"
);

分区器将计算 PARTITION 键的哈希值（在上面的示例中为 userid - 1），并决定该行将保存在哪个节点。假设计算出的哈希值是 12345，该行将保存在节点 0 上（在上面的配置中查找 Node0 的initial_token 值）。

完整的cassandra.yaml配置配置Cassandra_yaml_r

你可以通过这个部署CalcTokens了解如何生成令牌。

第二个问题——

数据如何复制？

根据您的复制策略和复制因子，数据将在每个节点上复制。创建键空间时必须指定复制因子和复制策略。例如，在上面的例子中，我使用了SimpleStrategy作为复制策略。该策略适合小型集群。对于地质分布式应用程序，您可以使用NetworkTopologyStrategy。 replication_factor 指定要创建一行的多少个副本，在本例中，每行将创建三个副本。通过简单的策略，cassandra 将使用顺时针方向复制行。

在上面的示例中，该行保存在 Node0 上，并且同一节点被复制到 Node1 和 Node2 上。我们再举一个例子——

INSERT INTO USER_BY_USERID VALUES(
 448454,
 "Obi wan kenobi",
 "[email protected]"
);

对于用户 id 448454，计算出的哈希值是 3074457345618258609，因此该行将保存在 Node2 上（在上面的配置中查找节点 2 的initial_token 值），并按顺时针方向复制到 Node3 和 Node4（记住我们已经指定了复制）因子为 3，因此只有三个副本（Noe2、Node3、Node4）。

希望这可以帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

cassandra 分片和复制的相关文章

复制已过滤的数据子集：合并或事务复制？

首先感谢您的阅读我需要复制基于连接过滤器的数据子集基于与其他表的联接的过滤器 Microsoft 使用联接过滤器您可以将行过滤器从一个已发布的表扩展到另一个这是设置 SQL Server 2012 事务复制订阅上的复制源复制需要是
Cassandra - 使用主键列的任意子集按主键搜索

是否有可能在 Cassandra 中找到主键与所有主键字段的任意子集匹配的记录 Example 使用下面描述的表可以找到主键具有特定的记录type and name没有指定id or size CREATE TABLE playlists
库存管理系统的 SQL 与 NoSQL

我正在开发一个基于 JAVA 的网络应用程序主要目的是拥有在多个称为渠道的网站上销售的产品的库存我们将担任所有这些渠道的管理者我们需要的是用于管理每个渠道的库存更新的队列库存表其中包含每个通道上分配的正确快照将会话 ID 和其
Cassandra 中的 SASI 索引似乎有一些错误

我刚刚开始在 Cassandra 3 7 0 上使用 SASI 索引遇到了一个问题我怀疑这是一个错误我几乎没有追踪到该错误出现的情况以下是我发现的使用 SASI 索引查询时它可能会错误地返回 0 行改变一点条件它又可以工作了
从 C* 表中获取不同的分区键

cqlsh 不允许嵌套查询因此我无法将所选数据导出到 csv 我正在尝试使用以下命令从 cassandra 导出选定的数据大约 200 000 行单列 echo SELECT distinct imei FROM listener s
Cassandra 墓碑对多个查询与单个查询进行计数

我有一个 cassandra 表定义如下 CREATE TABLE mytable colA text colB text timeCol timestamp colC text PRIMARY KEY colA colB timeCol
如何在 AWS Glue 中使用 Spark 包？

我想使用 DatastaxSpark Cassandra 连接器 https mvnrepository com artifact com datastax spark spark cassandra connector 2 12 2 5
使用 pycassa 读取 Cassandra 1.2 表

使用卡桑德拉 1 2 我按以下方式使用 CQL 3 创建了一个表 CREATE TABLE foo user text PRIMARY KEY emails set
是否可以仅从复制因子为 3 的 Cassandra 集群中的单个节点读取数据？

我知道 Cassandra 有不同的读取一致性级别但我还没有看到一种一致性级别允许仅从一个节点按键读取数据我的意思是如果我们有一个复制因子为 3 的集群那么我们在读取时总是会询问所有节点即使我们选择一致性级别 1 我们也会询问所有
哪个 CQL 版本对应哪个 Cassandra 版本？

CQL 文档是根据 CQL 版本而不是 Cassandra 产品版本来组织的显然我想阅读与我正在使用的 Cassandra 版本相对应的 CQL 文档但我找不到有关哪个 CQL 版本对应于哪个 Cassandra 版本的全面信息 CQ
TaskSchedulerImpl：初始作业尚未接受任何资源；

这就是我正在尝试做的事情我创建了DataStax企业集群的两个节点在其上创建了一个java程序来获取一张表 Cassandra数据库表的计数该程序是在 eclipse 中构建的实际上是来自 windows 盒子从 Windows
数据库镜像/Postgres流复制

我不是 DBA 我是基于企业数据库的应用程序的主要开发人员我目前正在指定一些新机器来升级我们现有的企业数据库目前我们在 DR 站点上运行带有数据库的 Postgres 8 4 该数据库通过前员工执行的一些自定义 rsync 工作定期接
从同一mysql服务器的不同数据库复制表

我有一台带有 2 个数据库的服务器我想将多个表从一个数据库复制到另一个数据库目的是我们使用项目中使用的相同用户表正如在另一个表中使用 InnoDB 和用户表的外键一样我选择了一种复制方式为此我对 my cnf 进行了更改 mast
了解 Cassandra 池选项（setCoreConnectionsPerHost 和 setMaxConnectionsPerHost）？

我最近开始使用 Cassandra 并且正在阅读有关连接池的更多信息here https docs datastax com en developer java driver 3 6 manual pooling 我对池大小感到困惑无法理
Hector 在执行incrementCounter 后获取结果计数器值

我们正在执行以下操作来更新计数器的值现在我们想知道是否有一种简单的方法可以立即取回更新的计数器值 mutator incrementCounter rowid1 cf1 counter1 value Cassandra thrift AP
Cassandra CAS INSERT 对于具有毫秒延迟的请求超时

我们正在对 cassandra 集群 3 个节点复制因子 3 进行负载测试并开始偶尔接收到写入超时异常对于一张表上的 CAS 插入操作 CREATE TABLE users by identity account ascii domai
Apache ZooKeeper：写入如何工作

Apache ZooKeeper 是一种针对小对象的高可用数据存储 ZooKeeper 集群由一些节点组成这些节点都将整个数据集保存在内存中该数据集被称为始终一致因此每个节点每次都有相同的数据根据文档和博客文章 http www
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
cassandra 中的突变是什么？

cassandra 中的突变是什么它在做什么我没有找到任何有关它的完整信息您可以回答或分享带有手册或说明的链接吗谢谢 Mutation 是一个由 thrift 生成的类定义在cassandra thrift文件您可以在以下位置找
Cassandra - 使用 ORDER BY 和 UPDATE 集群键的替代方法

我的架构是 CREATE TABLE friends userId timeuuid friendId timeuuid status varchar ts timeuuid PRIMARY KEY userId friendId CREA

随机推荐

kotlin 如何使 setOnClickListener 接受函数作为参数

在 kotlin 中我们可以使用setOnClickListener 像这样 view setOnClickListener println Hello 但是如果我定义自己的接口我只能传递匿名对象如下所示 obj setMyListe
如何在Python中的文件中写入新行

我有一个这样的文件 word number word number 我只想保留保留这些单词再次换行中的一个单词 word word 到目前为止我的代码 f open new file txt w with open initial fi
查找 SQL 中的所有整数间隙

我有一个数据库用于存储我从外部源获取的游戏不同比赛的信息由于一些问题数据库中偶尔会出现空白可能缺少 1 个 ID 到几百个 ID 我想让程序提取丢失游戏的数据但我需要先获取该列表以下是表格的格式 id pk identity G
更改“多选”下拉框中所选项目的背景颜色？ [复制]

这个问题在这里已经有答案了我想为多选下拉框中的所选项目赋予黄色选择后默认背景是灰色的如何执行此操作HTML CSS 这个问题是关于多选但对于单选请参考相关但不重复如何将背景颜色应用于选定的选项我们可以简单地借助以下 CSS 来完
Laravel 5.1 视图未找到

这似乎是 Laravel 中时不时出现的一个问题我正在编写一个 CRUD 控制器以配合它但是经过测试我得到了InvalidArgumentException in FileViewFinder php line 137 View b
如何在 Firebase 托管中实现 .htaccess 配置？

我的域中有一个 htaccess 配置允许我的应用程序与路由完美配合当您刷新 Angular 2 应用程序无法解析路线时它可以避免错误我当前的配置是这个
如何在 PyQt 中使用 pdf.js 查看器渲染 PDF？

我尝试在我的项目中添加 pdf js 查看器文件它可以在 Chrome Mozilla Safari 等浏览器中运行但它不会加载 node webkit 和 PyQt webkit 中的某些页面我正在尝试使用 iframe 加载文件
为什么只将数据存储在平衡二叉搜索树的叶节点中？

我买了一本关于计算几何的好小书在到处阅读时我经常偶然发现这种特殊的二叉搜索树的使用这些树是平衡的应该只在叶节点中存储数据而内部节点应该只存储引导搜索到叶节点的值下图显示了该树的示例其中叶子是矩形内部节点是圆形我有两个问题
JQuery 使用 .each() 延迟

您有什么想法可以使用 JQuery 的延迟方法和一个函数来检测所有更改的表单并将每个表单作为 Ajax 帖子提交吗如果我只列出大量表单提交我可以得到同样的结果但如果我使用 form changed each function retu
预填充 HTML 表单文件输入

我有一个 VBScript 它可以检查 HTML 表单用固定值填充它然后提交它到目前为止它工作正常但现在我需要设置将在表单数据中上传的文件的位置我相信如果我将位置设置为该值它就会起作用但事实并非如此
强制WebView在某个网络上运行

是否可以强制WebView通过指定的方式加载 URLNetwork 我的设备打开了两个网络连接 wifi 和移动数据移动数据网络被设置为传出连接的默认网络因此连接管理器返回移动数据网络connectivityManager getAct
UIPickerView 与 NSDictionary

我是一名 NET 程序员也是 Objective C 的新手我正在尝试制作一个 UIPickerView 它的作用类似于 NET 下拉列表用户看到文本列表并选择一个所选值即 ID 将在代码中使用我已经浏览了近半天试图弄清楚这一点
!= 在 jade/pug 中起什么作用？

在下面的翡翠代码中如何工作 messages extends layout block content spacer container row col lg 8 col lg offset 2 col md 10 col md offse
将自定义 NSURLProtocol 与 UIWebView 和 POST 请求结合使用

在我的 iOS 应用程序中我使用 UIWebView 和自定义协议带有我自己的 NSURLProtocol 实现我非常小心地确保每当我加载 url 时我都会将类似的内容加载到我的 UIWebView 中 myprotocol mys
在共享库中使用全局变量

我正在用 C 编写一个应用程序它使用全局变量日志文件结构在我的应用程序中我在运行时动态加载共享库并且我想使用指向相同日志文件结构的全局变量来记录共享库这在简单的方法中似乎是不可能的将全局变量声明为 extern 将不起作用因
无法编译、无法执行dex、无法合并、非巨型指令

我需要一些帮助因为我自己无法找到解决方案我阅读了很多帖子并进行了很多调查但没有解决方案我有一个项目有一些子项目操作栏滑动 facebook 等当我尝试编译它时我总是收到以下错误 2013 07 31 14 44 06 De
如何使用 LINQ 将字典的键和值合并到一个列表中？

我有一本字典其中键是一个字符串值是与该键对应的字符串列表我想显示字典中的所有键并在该键下方显示与该键关联的值像这样的东西 Key 1 Value 1 Value 2 Value 3 Key 2 Value 1 Value 2 在
Git 与 SVN 与非文本文件/大型项目

过去几周我一直在学习 Git 与 SVN 相比我真的很喜欢它的工作方式我希望完全切换到它的主要原因是合并应该更容易几乎没有冲突而且我可以在本地提交这促进了许多分支的使用例如每个票证问题任务等的一个分支并且还促进了许多提
调整未知数量的元素大小以填充父容器的宽度

我需要将未知数量的 div 可能限制为 5 左右放入父容器中并始终确保它们保持均等划分我不确定这是否可以单独使用 CSS 来完成但我想我最好问一下因此如果我们知道使用了 3 个 div div div class menu bu
cassandra 分片和复制

我是 Cassandra 的新手不过本文解释分片和复制我陷入了一个困境我的本地计算机上配置了一个包含 6 个 Cassandra 节点的集群我创建一个新的键空间 TestKeySpace 复制因子为 6 并在键空间 employee

cassandra 分片和复制

cassandra 分片和复制 的相关文章

随机推荐

热门标签

cassandra 分片和复制的相关文章