具有大量数据的 ec2 上 cassandra 设置的最佳实践

2024-02-28

我正在进行从物理机到 ec2 实例的大规模迁移。

截至目前，我有 3 个 x.large 节点，每个节点都有 4 个实例存储驱动器 (raid-0 1.6TB)。设置完后，我记得“实例存储卷上的数据仅在关联的 Amazon EC2 实例的生命周期内保留；如果您停止或终止实例，实例存储卷上的所有数据都会丢失。”

在这种情况下人们通常会做什么？我担心如果其中一个盒子崩溃，那么如果没有 100% 复制到另一个盒子上，那么该盒子上的所有数据都将丢失。

http://www.hulen.com/?p=326 http://www.hulen.com/?p=326我在上面的链接中读到，这些人使用临时驱动器，并使用 EBS 驱动器和快照定期备份内容。”

在这个问题中：如何备份 aws ec2 实例/临时存储？ https://stackoverflow.com/questions/10749099/how-to-take-backup-of-aws-ec2-instance-ephemeral-storage人们声称无法将临时数据备份到 EBS 快照中。

我最好的选择是使用几个 EBS 驱动器并将它们一起进行 raid0 并能够直接从它们获取快照吗？我知道这可能是最昂贵的解决方案，但是，它似乎最有意义。

任何信息都会很棒。

感谢您的时间。

我在 EC2 上运行 Cassandra 已有 2 年多了。为了解决您的担忧，您需要在 EC2 上为您的 Cassandra 集群构建适当的可用性架构。以下是供您考虑的项目符号列表：

考虑至少 3 个区域来设置集群；
将 NetworkTopologyStrategy 与 EC2Snitch/EC2MultiRegionSnitch 结合使用，将数据副本传播到每个区域；这意味着每个区域中的机器将合并您的完整数据集；例如，strategy_options 类似于 {us-east:3}。

上述两个技巧应该满足 AWS 中的基本可用性，并且如果您的查询是使用 LOCAL_QUORUM 发送的，那么即使一个区域出现故障，您的应用程序也将正常工作。

如果您担心 2 个区域出现故障（不记得在我使用过去 2 年的 AWS 中发生过这种情况），那么您还可以向集群添加另一个区域。

通过上述，如果任何节点因任何原因死亡，您可以从其他区域的节点恢复它。毕竟，CAssandra 旨在为您提供这种可用性。

关于 EBS 与 Ephemeral：

我一直反对在任何生产中使用 EBS 卷，因为就可用性而言，它是最差的 AWS 服务之一。它们每年会出现几次故障，而且其负面影响通常会波及其他 AWS 服务，例如 ELB 和 RDS。它们也类似于附加的网络存储，因此任何读/写都必须通过网络进行。不要使用它们。甚至 DataStax 也不推荐它们：

http://www.datastax.com/documentation/cassandra/1.2/webhelp/index.html#cassandra/architecture/../../cassandra/architecture/architecturePlanningEC2_c.html http://www.datastax.com/documentation/cassandra/1.2/webhelp/index.html#cassandra/architecture/../../cassandra/architecture/architecturePlanningEC2_c.html

关于备份：

我使用一种名为 Priam 的解决方案（https://github.com/Netflix/Priam https://github.com/Netflix/Priam）由 Netflix 编写。它可以在夜间拍摄集群快照并将所有内容复制到 S3。如果您启用incremental_backups，它还会将增量备份上传到S3。如果节点出现故障，您可以使用简单的 API 调用在特定节点上触发恢复。它恢复速度更快，并且不会给其他节点带来大量流负载。我还添加了一个补丁，让您可以做一些奇特的事情，例如在一个 AWS 区域内建立多个 DC。

您可以在这里阅读我的设置：http://aryanet.com/blog/shrinking-the-cassandra-cluster-to-fewer-nodes http://aryanet.com/blog/shrinking-the-cassandra-cluster-to-fewer-nodes

希望以上有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

具有大量数据的 ec2 上 cassandra 设置的最佳实践的相关文章

访问 AWS 上的 Tensorboard

我正在尝试访问 AWS 上的 Tensorboard 这是我的设置张量板 tensorboard host 0 0 0 0 logdir train 在端口 6006 上启动 TensorBoard b 39 您可以导航到http 172
将多个平台部署到 Elastic Beanstalk (PHP/Python)

是否可以将多个平台部署到AWS 我有一个 PHP 应用程序我还想运行一个小的 python 脚本我看到 PHP 平台默认安装 Python 但是使用eb deployAWS 没有接听requirements txt并安装依赖项我已经尝
从 EC2 实例 ID 创建 AMI 时，command.resolveMiddleware 不是 AWS SDK 的函数，想知道为什么？

我当时正在开发 AWS SDK 版本 3 并尝试以编程方式从 EC2 实例创建 AMI 以下是我使用的脚本 Imports TODO Import the ec2 client const EC2Client CreateImageComm
Cassandra 和二级索引，它们内部如何工作？

Cassandra 二级索引内部如何运作文档指出它是某种哈希索引鉴于我有专栏username foobar 列用户名将是 CF 中的辅助索引 User with RandomOrderingPartitioner 我的假设是否正确 ca
AWS LoadBalancer监听多个端口

我有一些应用程序在 aws 中作为微服务运行其中一些在端口 80 上运行一些在端口 3000 上运行我希望我的 ALB 侦听这两个端口上的流量然后我有一个ListenRules将流量引导至微服务我想实现如下所示的目标 Resour
Elastic Beanstalk、Bundler 找不到 gem“bundler”的兼容版本

我已经尝试过将 Elastic Beanstalk 用于 Rails 当我运行 eb deploy 时出现此错误我需要至少安装bundler 1 8 4 知道如何解决这个问题吗 Bundler could not find compati
使用 AWS API Gateway 和 Lambda 从 multipart/form-data 获取非文件正文

我正在尝试从multipart form data POST通过 API 网关连接到我的 AWS Lambda Web 服务超文本传输协议POST具有内容类型 multipart form data 和 URL 编码的正文文件数据也在
AWS API Gateway 403 禁止

我在 AWS API Gateway 中创建了一个 API 在该 API 中我创建了一个带有自定义 http 端点的代理资源但是当我访问API网关端点时https 2r3g3ttr6y execute api eu east 1 ama
AmazonServiceException：用户无权执行：dynamodb：DescribeTable 状态代码：400；错误代码：AccessDeniedException

我原本以为这个问题是由于区域不匹配造成的但是在更改区域后在尝试此处找到的 Amazon AWS 示例时我仍然遇到以下错误 DynamoDB映射器 https github com awslabs aws sdk android sam
Amazon Web Services：设置 S3 策略以允许 putObject 和 getObject 但拒绝 listBucket

我在 Amazon S3 上使用 getObject 和 putObject 请求并在创建访问存储桶的策略时发现如果我不允许 listBucket 则会收到访问被拒绝错误这样做的问题是 listBucket 意味着用户可以列出存储
使用 python boto3 管理 Route53 中具有多个 IP 的 A 记录

我的route53中有一条A记录后面有多个IP 例子 A record dummy xyz com 点IPs 1 1 1 1 2 2 2 2 和 3 3 3 3路由策略 Simple 我使用下面的代码来更新单个 IP 的记录 Change
具有服务器端加密 s3 存储桶的 AWS Cloudfront

这是对这个问题 https stackoverflow com questions 50166557 how can a cloudfront distribution an aws kms key to get an s3 image e
在 RedShift 中声明变量

SQL Server能够声明一个变量然后在查询中调用该变量如下所示 DECLARE StartDate date SET StartDate 2015 01 01 SELECT FROM Orders WHERE OrderDate g
从本地计算机连接到 AWS 上的 Neptune

我正在尝试从办公室的本地计算机连接到 AWS 实例中的 Neptune DB 就像从办公室连接到 RDS 一样是否可以从本地计算机连接 Neptune 数据库 Neptune 数据库是否公开可用开发人员有什么方法可以从办公室连接 Nep
设计 Cassandra 数据模型的最佳实践是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案以及需要避免哪些陷阱您有任何交易中断吗例如我听说导出导入 Cassandra 数据非常困难这让我想知道这是否会妨碍将生产数据
每次在我的 AWS SQS 目标上推送通知时如何触发事件？

我正在将 AWS SQS 用于 Amazon MWS 订单 API 每当有人从已将我添加为其开发人员的卖家帐户订购时亚马逊都会将通知发送到我的 AWS SQS 应用程序我可以从那里提取通知但为此我必须创建一个调度程序来提取通知我是
如何增加vm.max_map_count？

我正在尝试在 Ubuntu EC2 计算机 t2 medium 中运行弹性搜索但我收到消息最大虚拟内存区域 vm max map count 65530 太低至少增加到 262144 我怎样才能增加vm max map count v
将密钥对添加到现有 EC2 实例

我被给予AWS控制台访问正在运行 2 个实例的帐户但我无法关闭在生产中但是我想获得对这些实例的 SSH 访问权限是否可以创建一个新的密钥对并将其应用到实例以便我可以通过 SSH 访问获取现有的pem当前无法选择创建实例所用的密
如何将域添加到 aws 上的现有 SSL 证书

我有一个与 Amazon Web Services 上的负载均衡器关联的 SSL 证书我想在该证书上有一个额外的域我的问题是是否可以向 aws 上现有的 ssl 证书添加额外的域我发现您可以在创建证书时添加其他名称但我不知道如何使
AWS Lambda 提前结束（没有任何显式返回或回调）

我在放入 AWS Lambda 中的一些 Node js 代码时遇到了一些问题我需要进行几个异步调用虽然第一个调用的行为符合我的预期但 lambda 函数在第二个调用完成之前终止返回值为 null 这让我认为 lambda 正在执行

随机推荐

将 SQL 列空值转换为 0

我是 SQL Server 新手有一个问题我有这样的视图其中公式中的某些列允许为空我如何将这些空值转换为 0 因为如果它们为空则公式的结果也将为空 Thanks CREATE VIEW vwAchizitii AS SELECT
while 循环内的表变量并非每次都初始化：SQL Server

我想知道为什么 while 循环内的表变量的行为与其他变量不同表变量仅创建一次并将在整个循环中使用但每次循环增加时其他变量都会被初始化查看下面的代码以获取更多信息 declare tt int set tt 10 while tt
Angular2 - 表达式在检查后已更改 - 通过调整大小事件绑定到 div 宽度

我已经对此错误进行了一些阅读和调查但不确定适合我的情况的正确答案是什么我知道在开发模式下更改检测会运行两次但我不愿意使用enableProdMode 来掩盖问题这是一个简单的示例其中表格中的单元格数量应随着 div 宽度的扩展而
如何找到matplotlib样式名称？

是否可以知道当前matplotlib样式的名称我知道我可以使用以下命令获取所有可用样式的列表plt style available 但我想要的是获取当前使用的样式名称的可能性我正在spyder python 3 5的ipython控制台
未找到启动器活动

我找不到任何问题但它一直给我错误未找到启动器活动和启动只会同步设备上的应用程序包有人能解决这个问题吗这是我的Maniest
尽管存在预期，但规范没有预期控制台错误

我有必须期待的规范但它仍然说没有期望 it should click on yes button of technician and check save continue functionality gt const saveAndCo
使用 python 将时间范围扩展为具有精确标签的更小增量的更多步骤

我有一个带有时间戳和标签的文本文件如下所示 0 000000 14 463912 tone 14 476425 16 891247 noise 16 891247 21 232923 not music 21 232923 23 1722
php 日期格式 YYYY-MM-DD 从现在开始减去或添加一周？

today 22 05 2011 so it should be 29 05 2011 plus 1 week or today 22 05 2011 so it should be 15 05 2011 minus 1 week 感谢您的
bxSlider 触摸启用 - 禁用垂直触摸事件，因此只有水平触摸事件起作用

我正在使用可能是我最喜欢的 jquery 滑块插件之一 bxSlider http bxslider com http bxslider com options touchEnabled http bxslider com options
如何在android中正确关闭光标

我有这个使用 sqlite 的数据库并且我在关闭游标时遇到问题它说Application did not close the cursor or database object that was opened here这是日志猫 10
如何让 Spark 使用 Kryo 序列化对象？

我想将一个对象从驱动程序节点传递到 RDD 所在的其他节点以便 RDD 的每个分区都可以访问该对象如以下代码片段所示 object HelloSpark def main args Array String Unit val conf
粒子系统的点精灵

点精灵是构建粒子系统的最佳选择吗新版本的 OpenGL 和最新显卡的驱动程序中是否存在点精灵或者我应该使用 vbo 和 glsl 来做到这一点点精灵确实非常适合粒子系统但它们与 VBO 和 GLSL 没有任何关系这意味着它们是完全
如何防止用户更改 URL 来查看其他提交数据 Django

我是 Web 开发世界 Django 以及需要保护 URL 免受更改 foo bar 的用户的应用程序的新手pk访问其他用户数据有办法防止这种情况吗或者有没有内置的方法可以防止 Django 中发生这种情况 E g foo bar 22
建议使用 emacs 交互功能：之前

我想先建议一些使用交互式参数的函数例如find dired defadvice find dired before eab find dired activate message before setq find args iname 1
Spring MVC 控制器方法签名中的域类型不起作用

将 Spring Boot 2 3 0 RELEASE 更新到 2 3 1 RELEASE 后 domian 类转换在控制器方法内停止工作这是参考控制器在 Spring Boot 2 3 0 RELEASE 之前它工作得很好 Contr
有什么方法可以检测浏览器控制台是否能够渲染颜色？

有没有一种方法可以检查浏览器是否能够在不嗅探的情况下使用控制台颜色 console log c Oh my heavens background 222 color bada55 例如在 chrome 26 和 firebug 中将打印彩
Spring REST 以二进制形式上传文件

我用的是弹簧我想实现休息控制器将文件上传到服务器我发现了很多这样的例子 public ResponseEntity doSomething PathVariable String paramOne RequestParam requir
将键->值的哈希映射“转置”为值->键？

假设我有一个键 gt 值对的映射我想反转它以便我有一个新的映射它实际上是值 gt 键即旧值成为新键旧键成为新值最好的方法是什么我正在使用Java 哦价值观是独一无二的我个人会用番石榴BiMap https google g
为什么我的 Shiny 应用程序没有发布

我在尝试发布 Shiny 应用程序时遇到问题这是我发布的应用程序的代码 UI library shiny library ggplot2 library dplyr ui lt fluidPage titlePanel Visualizi
具有大量数据的 ec2 上 cassandra 设置的最佳实践

我正在进行从物理机到 ec2 实例的大规模迁移截至目前我有 3 个 x large 节点每个节点都有 4 个实例存储驱动器 raid 0 1 6TB 设置完后我记得实例存储卷上的数据仅在关联的 Amazon EC2 实例的生命周期

具有大量数据的 ec2 上 cassandra 设置的最佳实践

具有大量数据的 ec2 上 cassandra 设置的最佳实践 的相关文章

随机推荐

热门标签

具有大量数据的 ec2 上 cassandra 设置的最佳实践的相关文章