每个存储桶的最大沙发底座视图数

2024-05-31

假设存储桶中有大量数据（>100GB、>100M 文档、>12 种文档类型），并且假设每个视图仅适用于一种文档类型，那么每个存储桶有多少视图就太多了？或者以另一种方式问，在什么时候应该将某些文档类型拆分到单独的存储桶中，以节省处理所有文档类型的所有视图的开销？

我很难决定如何将数据拆分为 couchbase 存储桶，以及数据所需视图的性能影响。我的数据由十几个关系型数据库组成，其中至少有一半在多个表中包含数亿行。

The http://www.couchbase.com/docs/couchbase-manual-2.0/couchbase-views-writing-bestpractice.html http://www.couchbase.com/docs/couchbase-manual-2.0/couchbase-views-writing-bestpractice.htmldoc 部分“使用文档类型”似乎暗示在同一个存储桶中拥有多个文档类型并不理想，因为特定文档类型的视图会针对所有文档进行更新，即使是那些永远不会与视图匹配的文档。事实上，它建议将数据分成桶以避免这种开销。

但出于性能原因，每个集群的存储桶数量限制为 10 个。因此，我唯一的结论是每个集群最多可以有效处理 10 个大型文档集合。这准确吗？

Tug 的建议是正确的，也让我添加了一些观点。

存储桶可以被认为与 RDMS 世界中的“数据库实例化”最密切相关（尽管不完全）。该“数据库”内将有多个表/模式，并且这些表/模式都可以组合在一个存储桶中。

将存储桶视为数据的逻辑分组，所有数据共享一些通用配置参数（RAM 配额、副本数量等），并且当您需要单独控制某些数据集时，只需将数据拆分到多个存储桶中。其他原因与不同数据集的非常不同的工作负载或希望能够单独跟踪这些数据集的工作负载有关。

一些例子：

-我想以不同于另一组数据的方式控制一组数据的缓存行为。例如，许多客户有一个“会话”存储桶，他们希望始终将其存储在 RAM 中，而他们可能有一个更大的“用户配置文件”存储桶，不需要将所有数据缓存在 RAM 中。从技术上讲，这两个数据集可以驻留在同一个存储桶中，并允许 Couchbase 智能地决定将哪些数据保留在 RAM 中，但是您没有太多保证或控制会话数据不会被推出......所以把它在自己的桶中允许您强制执行。它还为您带来了能够单独监控流量的额外好处。

-我希望某些数据比其他数据复制更多次。虽然我们通常建议在大多数集群中只使用一个副本，但有时我们的用户会选择他们想要额外复制一次的某些数据集。这可以通过单独的桶来控制。

-同样，我只想将一些数据复制到另一个集群/数据中心。这也是按存储桶进行控制的，以便数据可以分割到单独的存储桶中。

-当给定数据集的工作负载（尤其是写入量）存在相当大的差异时，从视图/索引的角度来看，将数据分离到单独的存储桶中确实开始有意义。我提到这一点是因为这是事实，但我也想澄清这不是常见情况。您应该在发现问题之后使用此方法，而不是因为您认为可能之前才使用。

关于最后一点，是的，对存储桶的每次写入都会被索引引擎拾取，但是通过使用 JSON 中的文档类型，您可以非常快速地中止给定文档的处理，并且它确实不会对有大量数据不适用于某些视图。如果您不介意，我特别好奇文档的哪些部分暗示了其他情况，因为这肯定不是我们的意图。

因此，一般来说，我们看到大多数部署的存储桶数量较少 (2-3)，只有少数超过 5 个。我们对 10 个的限制来自我们内部统计跟踪的一些已知的 CPU 和磁盘 IO 开销（负载或桶上缺少的东西在这里并不重要）。我们当然计划在未来的版本中减少这种开销，但这仍然不会改变我们仅拥有几个存储桶的建议。无论如何，能够将多个“模式”组合成单个逻辑分组并跨其应用视图/索引的优点仍然存在。

我们现在正在制定更具体的指导方针和尺寸建议（我写了前两篇博客作为我们这样做之前的权宜之计）。

作为初始方法，您希望尝试将设计文档的数量保持在 4 个左右，因为默认情况下我们最多并行处理 4 个文档。您可以增加此数字，但这应该与增加的 CPU 和磁盘 IO 容量相匹配。然后，您需要将每个文档中的视图数量保持在相对较低的水平，可能远低于 10 个，因为它们都是串行处理的。

我最近与一位拥有相当大量视图（大约 8 个设计文档和一些 dd 具有近 20 个视图）的用户合作，我们能够通过将多个视图合并为一个视图来彻底降低这一点。显然，它非常依赖于应用程序，但您应该尝试从一个索引生成多个不同的“查询”。使用缩减、键前缀（在视图内）和排序规则，所有这些与不同的范围和分组查询相结合，可以创建一个最初可能显得拥挤的索引，但实际上非常灵活。

您拥有的设计文档和视图越少，您需要的磁盘空间、IO 和 CPU 资源就越少。不幸的是，永远不会有灵丹妙药或硬性指导数字。最后，YMMV 和在您自己的数据集上进行的测试比我可以编写的任何多页响应都要好;-)

希望这对您有所帮助，如果您对您不想发布的特定用例有具体问题，请随时直接与我们联系。

Perry

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

每个存储桶的最大沙发底座视图数的相关文章

如何在 JMeter 中显示实际循环计数

我们可以通过以下方式显示实际线程 threadNum 实际循环计数有类似的东西吗您可以使用 jm Thread Group idx 获取当前循环迭代 jm Thread Group idx 请注意这是 JMeter 5 中一般增强功能的
多处理器机器中秒表的最佳实践？

我找到了一个好的question https stackoverflow com questions 28637 is datetime now the best way to measure a functions performance
如何知道Matlab中系统命令执行过程中经过的时间？

我有一个运行系统脚本的 Matlab 代码该脚本可能会因命令运行而停止我想知道是否有一种方法可以让程序知道它是否花费了很长时间并执行其他操作这是代码 tic status cmdout system iperfcmd The prog
SignalR 似乎正在减慢我的 MVC/Azure 应用程序的启动速度

我有一个 MVC 应用程序在 Windows Azure 上的 WebRole 上的 NET 4 5 下运行使用 SignalR 1 0 alpha2 并使用 ServiceBus 底板在我的 App Start 文件夹中我有 Reg
Pandas apply 与 np.vectorize 从现有列创建新列的性能

我正在使用 Pandas 数据框并希望创建一个新列作为现有列的函数我还没有看到关于之间速度差异的很好的讨论df apply and np vectorize 所以我想我会在这里问熊猫apply 功能很慢根据我的测量在一些实验中如下
GWT 在开发模式下运行缓慢

我在开发模式下使用最新的 GWT 2 0 版本的 Eclipse Galileo 但它运行速度非常慢我需要等待大约一分钟才能打开一个页面但编译后当我使用 Tomcat 5 5 运行它时我的应用程序运行得很好我的代码不太重我猜有一
如何加快 jar 签名者的速度？

我使用 ant 来签署我的 jars 以进行网络启动部署 Ant signjar 在 Web 启动签名时非常慢如何加快签名过程我找到了一种可能的解决方案早些时候在构建脚本 ant signjar 中按顺序调用所有 jar 我们使用
封装严重损害性能？

我知道这个问题有点愚蠢也许这只是编写代码的一部分但似乎定义简单的函数确实会严重损害性能我尝试过这个简单的测试 def make legal foo string x return This is a foo string str x
对于执行缓慢的查询，您最酷的 SQL 优化是什么？

刚刚和我的一个同事说话他迈着跳跃的步伐走向咖啡机我问他蜂群行走是怎么回事他说我刚刚将两个小时的查询时间缩短到了 40 秒感觉真好他更改了一个使用游标的存储过程并引入了一个临时表该表是根据原始数据集重构的我很快就会给他发
使用嵌套 if 子句向量化循环

Problem 我正在尝试优化代码的运行时并且之前曾提出过类似的问题其中包括几个嵌套的 if 语句向量化嵌套 if 语句 https stackoverflow com questions 38125770 vectorizing n
从性能角度来说，是每次调用给定数组的长度更好，还是将长度存储在变量中并每次调用该变量更好？

我经常调用给定数组的长度我想知道是否最好继续调用它多次目前超过 50 次但它一直在增长还是将长度存储在整数中并使用每次都是那个整数如果我不清楚我所说的内容请考虑以下几点我有一个字符串数组 String str new Stri
从具有多个分区列的 hive 表中获取最新数据

我有一个具有以下结构的配置单元表 ID string Value string year int month int day int hour int minute int 该表每 15 分钟刷新一次并按年月日小时分钟列进行分区
Python：写入大文件时，保持文件打开还是打开文件并根据需要追加到文件中？

我想知道如何最好地处理 python 中的大文件写入我的Python代码多次循环运行外部程序古老的Fortran 具有奇怪的输入文件格式读取其输出一行文件进行一些非常简单的处理然后写入编译后的输出文件外部程序执行速度很快远低
当我提前知道可迭代类的长度时，我可以加速它吗？

PEP 424 https www python org dev peps pep 0424 在理由中提到能够根据预期大小预先分配列表如估计的那样 length hint 可以是一个重大的优化据观察 CPython 运行某些代码的
为什么处理未排序数组的速度与使用现代 x86-64 clang 处理排序数组的速度相同？

我发现了这个受欢迎的 9岁那么问题 https stackoverflow com questions 11227809 why is processing a sorted array faster than processing an
回显内容有时需要很长时间

我有一个脚本可以用一个字符串 content 构建我的网页然后将其回显给用户我的脚本如下所示 time1 microtime true content create content content time microtime tru
高效滚动最大和最小窗口

我想有效地计算滚动最大值和最小值这意味着比每次窗口移动时从使用的所有值重新计算最大值最小值更好这里有一篇文章问了同样的问题有人发布了一个涉及某种堆栈方法的解决方案据说该方法是根据其评级来工作的然而我这辈子都找不到它了在寻找解决
C 中每 N 个元素中出现次数最多的元素

我有一个大小为 0 8388608 的大数组 A 其中包含相对较小的整数 A i 0 131072 我想找到每个 N 32 个元素中最常出现的元素什么会更快 A 创建一个大小为131072的关联数组B 迭代32个元素递增B A i
Java：输入/使用“try-catch”块的开销？

这个问题说明了一切尽管命中率不是很高我测得速度慢了 1 5 倍到 2 倍但使用 try catch 的字节码和不使用 try catch 的字节码之间没有区别那么是什么让它通常变慢呢 PL 请注意问题不是抛出异常的开销而是进入
分析多层、分布式 Web 应用程序（服务器端）

我想profile http en wikipedia org wiki Profiling 28computer programming 29来自服务器 PoV 的复杂 Web 应用程序根据上面的维基百科链接和堆栈溢出profiling

随机推荐

如何列出喜欢某个页面或感兴趣的 Facebook 用户 [重复]

这个问题在这里已经有答案了可能的重复检索 Facebook 粉丝姓名 https stackoverflow com questions 2001281 retrieve facebook fan names 我想要获取喜欢某个页面或感
是否可以在通过表单上传本地图像之前预览它们？

更具体地说我想使用一种带有一个或多个用于图像的文件输入字段的表单当这些字段发生更改时我想在将数据发送到服务器之前显示关联图像的预览我尝试过多种 JavaScript 方法但总是遇到安全错误我不介意使用 java 或 flash
嵌套名称说明符中的类型不完整

我尝试在嵌套名称说明符中使用不完整类型如下所示 class A int b A c error incomplete type A used in nested name specifier class A static const in
Python-如何删除 json 字符串中最后的逗号(,)

嗨我刚刚开始尝试 python tornado 和 mongodb 我是新手我编写了一个简单的 get 函数来从 mongodb 获取所有值并以 JSON 格式返回问题是当我尝试将输出写入 JSON 字符串时我在集合中的最后一条记
从 BitmapImage 获取支持的图像格式

如何获取 System Windows Media Imaging BitmapImage 支持的图像格式列表我正在用 C WPF 编写一个简单的图像处理工具 BitmapImage 类是更有用的位图类之一因为它能够从多种格式进行解码
Android ListView 子项

我最近为 Android 应用程序创建了一个新的 ListView 对象但遇到了一些错误当我尝试使用简单适配器创建一个包含列表中子项目的项目时创建的最新项目与其他项目重叠我正在使用地图列表来创建项目例如如果我向地图列表中添加一个
如何在 psycopg2 线程连接类中重新连接到 postgreSQL？ SSL SYSCALL 错误导致的失败：在 Azure 中检测到 EOF？

我们的应用程序运行良好直到我们将 PostgreSQL 移植到 Azure 中的 Microsoft 数据库然后我们的应用程序会定期无故失败并且到处都会出现 SSL SYSCALL 错误删除等我们已经尝试了互联网上描述的所有内容
滚动部分滚动并溢出

我正在尝试使用脚本 Scrollify https github com lukehaas Scrollify https github com lukehaas Scrollify 但我的部分比用户的屏幕长这意味着您首先必须向下滚动才能
使用 NSJSONSerialization 解析 JSON

对此进行了太多讨论但我不知道如何解决我的问题这是我从 WorldWeatherOnline 获取的 JSON 数据 JSON 有效但我不知道如何解析它这是我的代码后面是 JSON 请帮忙 NSError errorInfo NSD
Node.js 中的 webRTC

我想在node js 中使用webRTC 来管理涉及浏览器和nodejs 上的对等点的混合连接我做了一些测试和搜索我尝试使用wrtc https github com js platform node webrtc or webrtc
如何使用 Laravel Collective 在表单标签中包含 html？

通读一遍这个所以线程 https stackoverflow com questions 24361160 radio and checkbox inside label with laravel我读到我可以创建一个新的宏来创建自定义表单输
使用javascript上传到谷歌云存储签名的url

使用以下代码我可以上传到谷歌云存储中的公共可写存储桶 allUsers有写权限但是如果存储桶不可公开写入则会收到 401 未经授权的错误我不希望存储桶可公开写入 var file scope myFile var fileData
Go 指针 - 通过指针将值附加到切片

我有一个 struct ProductData 及其实例 p 它有一个切片属性 type ProductInfo struct TopAttributes map string interface 我想设置 TopAttributes 如下
同一应用程序的不同版本取决于设备（应用程序商店）

我已经将我的游戏提交到App Store并更新了现在最新版本是每个下载我游戏的人都应该得到的版本对吗现在的问题是当我从 iPad mini 上的 App Store 下载游戏时我得到的是正确的版本但是当我从 iPad 2 下载游
异步 void lambda 表达式

A quick 会告诉你避免使用async void myMethod 可能的方法并且在很多情况下都有使其成为可能的方法 https johnthiriet com removing async void 我的问题基本上是这个最佳实践的一
如何检测 Android 设备中的新应用

我想检测用户何时安装或删除应用程序但没有找到BroadcastReceiver就是这样做的在我的应用程序中我获取了有关该类已安装应用程序的信息PackageManager 但我不想定期扫描应用程序有没有BroadcastReceiv
如何反转 Python statsmodels ARIMA 预测中的差异？

我正在尝试使用 Python 和 Statsmodels 来理解 ARIMA 预测具体来说为了使 ARIMA 算法发挥作用需要通过差分或类似方法使数据平稳问题是在进行残差预测后如何反转差异以返回到包含差异化趋势和季节性的预测
我以前没见过的 CGRect 语法

我在一些示例代码中看到了下面的语法但不确定我是否理解它 CGRect imageRect CGRect size baseImage size 这只是初始化的一种简写方式吗CGRect相当于 CGRect imageRect CGRect
有没有办法使用 .NET 中的 Kafka Ksql Push 查询

我目前正在 NET 中使用 Kafka 消费者处理大量 Kafka 消息我的处理过程的第一步是解析 JSON 并根据 JSON 中特定字段的值丢弃许多消息我不想首先处理特别是不下载那些不需要的消息看起来 kSql 查询写为推送查
每个存储桶的最大沙发底座视图数

假设存储桶中有大量数据 gt 100GB gt 100M 文档 gt 12 种文档类型并且假设每个视图仅适用于一种文档类型那么每个存储桶有多少视图就太多了或者以另一种方式问在什么时候应该将某些文档类型拆分到单独的存储桶中以节省处理

每个存储桶的最大沙发底座视图数

每个存储桶的最大沙发底座视图数 的相关文章

随机推荐

热门标签

每个存储桶的最大沙发底座视图数的相关文章