在 DSE 中何时使用 Cassandra 与 Solr？

2024-04-05

我使用 DSE 进行 Cassandra/Solr 集成，以便数据存储在 Cassandra 中并在 Solr 中建立索引。很自然地分别使用 Cassandra 处理 CRUD 操作和使用 Solr 进行全文搜索，并且 DSE 确实可以简化 Cassandra 和 Solr 之间的数据同步。

然而，当涉及到查询时，实际上有两种方法可以选择：Cassandra 辅助/手动配置索引与 Solr。我想知道何时使用哪种方法以及一般情况下的性能差异是什么，特别是在 DSE 设置下。

这是我的项目中的一个示例用例。我有一个 Cassandra 表存储一些项目实体数据。除了基本的 CRUD 操作之外，我还需要在某个字段（例如类别）上按相等性检索项目，然后按某种顺序排序（在我的例子中，是一个 like_count 字段）。

我可以想到三种不同的方法来处理它：

在 Solr 模式中为类别和 like_count 字段声明“indexed=true”并在 Solr 中查询
在 Cassandra 中使用主键（类别、like_count、id）创建非规范化表
在Cassandra中创建一个带有主键（category、order、id）的非规范化表，并使用外部组件（例如Spark/Storm）按like_count对项目进行排序

第一种方法似乎是最容易实现和维护的。我只编写一些简单的 Solr 访问代码，其余的繁重工作由 Solr/DSE 搜索处理。

第二种方法需要在创建和更新时手动进行反规范化。我还需要维护一个单独的表。还有墓碑问题，因为 like_count 可能会频繁更新。好的部分是读取可能会更快（如果没有过多的墓碑）。

第三种方法可以缓解墓碑问题，但需要一个额外的排序组件。

您认为哪种方法是最佳选择？性能上有什么区别？

Cassandra 二级索引的用例有限：

不超过几列索引。
查询中只有一个索引列。
高基数数据的节点间流量过多（相对唯一的列值）
低基数数据的节点间流量过多（匹配的行百分比较高）
需要提前了解查询，以便可以围绕它们优化数据模型。

由于这些限制，应用程序通常会创建“索引表”，并按所需的任何列进行索引。这需要将数据从主表复制到每个索引表，或者需要额外的查询来读取索引表，然后在从索引表读取主键后从主表读取实际行。对多个列的查询必须提前手动建立索引，这使得即席查询出现问题。并且任何重复项都必须由应用程序手动更新到每个索引表中。

除此之外......在从适度数量的节点中选择“适度”数量的行的情况下，它们将正常工作，并且查询是提前指定的而不是临时的。

DSE/Solr 更适合：

中等数量的列被索引。
引用大量列/字段的复杂查询 - Lucene 并行匹配查询中的所有指定字段。 Lucene 对每个节点上的数据建立索引，因此节点可以并行查询。
一般而言，即席查询，其中预先不知道精确的查询。
富文本查询，例如关键字搜索、通配符、模糊/类似、范围、不等式。

使用 Solr 索引会产生性能和容量成本，因此建议进行概念验证实施来评估需要多少额外 RAM、存储和节点，这取决于您索引的列数、索引的文本量以及任何文本过滤复杂性（例如，n 元语法需要更多。）其范围可能是从相对较少数量的索引列增加 25% 到如果所有列都建立索引则增加 100%。此外，您需要有足够的节点，以便每个节点的 Solr 索引适合 RAM，或者如果使用 SSD，则大部分适合 RAM。目前不建议将 vnode 用于 Solr 数据中心。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 DSE 中何时使用 Cassandra 与 Solr？的相关文章

库存管理系统的 SQL 与 NoSQL

我正在开发一个基于 JAVA 的网络应用程序主要目的是拥有在多个称为渠道的网站上销售的产品的库存我们将担任所有这些渠道的管理者我们需要的是用于管理每个渠道的库存更新的队列库存表其中包含每个通道上分配的正确快照将会话 ID 和其
如何在Cassandra中搜索不相等的二级索引？

我需要能够仅使用对二级索引执行搜索据我所知 Cassandra 至少需要一个等式索引子句因为它会迭代该等式索引的所有结果是否有任何技巧可以仅使用执行操作至少在概念上这是一个坏主意吗另外有人知道 Cassandra 是否有计
使用 DataStax Java 驱动程序 1.0.4 通过 CQL 连接到 Cassandra 时出现异常

我的笔记本电脑上运行的是 Cassandra 1 2 11 我可以使用连接到它nodetool and cqlsh但是当我尝试使用 DataStax 1 0 4 Java API 来使用 CQL 3 0 进行连接时出现以下错误 com d
Cassandra 中的强一致性

根据datastax文章可以保证强一致性如果 R W gt N 在哪里 R是读操作的一致性级别 W为写操作的一致性级别 N 是副本数这里的强一致性是什么意思呢这是否意味着每次从数据库给出查询响应时响应将始终是最后更新的值
本地/离线网站“站点”的全文搜索[重复]

这个问题在这里已经有答案了可能的重复通过 javascript 对 CD Rom 上的静态 HTML 文件进行全文搜索 https stackoverflow com questions 1357173 full text search
如何在 AWS Glue 中使用 Spark 包？

我想使用 DatastaxSpark Cassandra 连接器 https mvnrepository com artifact com datastax spark spark cassandra connector 2 12 2 5
使用 pycassa 读取 Cassandra 1.2 表

使用卡桑德拉 1 2 我按以下方式使用 CQL 3 创建了一个表 CREATE TABLE foo user text PRIMARY KEY emails set
Cassandra 集群 - 特定节点 - 特定表高丢弃突变

我在生产中的压缩策略是 LZ4 压缩但我将其修改为 Deflate 对于压缩更改我们必须使用 nodetool Upgradesstables 强制升级所有 sstable 上的压缩策略但是一旦在集群中的所有 5 个节点上完成了 U
哪个 CQL 版本对应哪个 Cassandra 版本？

CQL 文档是根据 CQL 版本而不是 Cassandra 产品版本来组织的显然我想阅读与我正在使用的 Cassandra 版本相对应的 CQL 文档但我找不到有关哪个 CQL 版本对应于哪个 Cassandra 版本的全面信息 CQ
将 CassandraUnit 与 Astyanax 结合使用时出现依赖性问题

我有一个 SessionDaoCassandraImpl 类它使用 Astyanax 从 Cassandra 读取数据我想使用嵌入式 Cassandra 服务器进行测试卡桑德拉单元 https github com jsevellec
如何使用 Solr 索引 pdf 内容？

我正在尝试使用 SolrJ 索引一些 pdf 文档如下所述http wiki apache org solr ContentStreamUpdateRequestExample http wiki apache org solr Cont
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
我们可以同时使用拼音标记和同义词吗？

我正在尝试同时启用语音分析器和同义词这似乎不起作用它们一起使用有错吗在下面的实现中我希望使用同义词转换搜索查询然后使用语音分析器来检索结果但我的同义词在这里完全被忽略了如果我在创建索引时删除语音分析器那么同义词就可以正常工作
Redis是如何实现高吞吐量和高性能的？

我知道这是一个非常普遍的问题但是我想了解允许 Redis 或 MemCached Cassandra 等缓存以惊人的性能极限工作的主要架构决策是什么如何维持连接连接是 TCP 还是 HTTP 我知道它完全是用C写的内存是如何管理
Solr：在带有空格的字符串上使用通配符

我的问题与这里讨论的问题基本相同带空格的 Solr 通配符查询 https stackoverflow com questions 10023133 solr wildcard query with whitespace 但这个问题没有得
使用 TLS/SSL 保护 Cassandra 通信

我们希望保护 Cassandra 免受中间人攻击有没有办法配置 Cassandra 使客户端服务器和服务器服务器复制通信采用 SSL 加密谢谢简短的回答不对于客户端服务器节俭 151 https issues apac
Hector 在执行incrementCounter 后获取结果计数器值

我们正在执行以下操作来更新计数器的值现在我们想知道是否有一种简单的方法可以立即取回更新的计数器值 mutator incrementCounter rowid1 cf1 counter1 value Cassandra thrift AP
Cassandra CAS INSERT 对于具有毫秒延迟的请求超时

我们正在对 cassandra 集群 3 个节点复制因子 3 进行负载测试并开始偶尔接收到写入超时异常对于一张表上的 CAS 插入操作 CREATE TABLE users by identity account ascii domai
由于未定义符号，PECL solr 未加载：curl_easy_getinfo

我正在尝试加载 PECL solr 扩展我尝试使用 pecl install solr 并下载并使用 phpize configure make 来安装它在这两种情况下扩展安装时都没有错误但在 apache 重新启动后或在命令行上
Cassandra Read 花费的时间比预期要长

我正在使用带有 CQL3 的 cassandra 1 2 我的键空间中有三个列族当我查询其中一个列族电话时需要很长时间才能检索这是我的查询 select from phones where phone no in 90384875

随机推荐

Docker 容器中运行的 JVM 的驻留集大小 (RSS) 和 Java 总提交内存 (NMT) 之间的差异

设想我有一个 JVM 在 Docker 容器中运行我使用两种工具进行了一些内存分析 1 top 2 Java 本机内存跟踪这些数字看起来令人困惑我正在尝试找出造成差异的原因问题 Java 进程的 RSS 报告为 1272MB 总
更新从文本字段绑定的属性，无需按 Enter 键

我有一个文本字段并将其绑定到NSString实例变量当我在文本字段中键入内容时它不会更新变量它会等到我按下 Enter 键我不想每次都按 Enter 键我需要更改什么才能立即更改绑定值默认情况下 a 的值绑定NSTextFie
什么是好的、简单的、仅限 2D 矩形的碰撞检测算法？

我正在为年轻人设计一个碰撞检测游戏教程所以我希望它尽可能简单以便更容易解释要求非常简单世界是二维的仅包含矩形任意大小 BSP 甚至四叉树似乎有点矫枉过正再次强调简单性但我想要比暴力破解所有 n n 1 2 可能的碰撞更有效的
编写一个Python方法，根据字符串生成拼写错误

我可以添加一些基于编辑距离二创建拼写错误的东西或者类似的东西或者逆向工程Norvig 关于拼写检查的文章 http norvig com spell correct html 然而最常见的拼写错误有哪些有人写过方法吗不存在一般的拼
如何在 Scala 中将 SerialVersionUID 添加到 Class[_] 实例？

我需要创建一个实例java lang Class在其他方面与classOf MyClass 但也有一个SerialVersionUID which MyClass不具有 MyClass是一个 Scala 2 10 类一个问题是在Java中
静态数据成员数组界限的求值范围

我本来打算针对 GCC 提交一个错误但后来意识到如果我对标准的解释是正确的那么这是一个核心语言缺陷而不是编译器错误当数组类型的静态数据成员在类作用域之外定义时将在类作用域中查找数组绑定中的标识符 9 4 2 class stat
如何要求泛型类型在泛型函数中实现 Add、Sub、Mul 或 Div 等操作？

我正在尝试在 Rust 中实现一个通用函数其中参数的唯一要求是应该定义乘法运算我正在尝试实现一个通用的权力但会使用更简单的cube函数来说明问题 use std ops Mul fn cube
如何以编程方式更改 UISlider 拇指图像的大小

我想制作自定义 UISlider 像这样的东西 o gt O gt the thumbImage在最小值时会很小滑块值增加时会增加尺寸否则会减小有人知道该怎么做吗您可以使用此代码 UIImage imageWithImage UII
Eclipse 中运行的是哪个版本的 Java？

我如何知道 Eclipse 中运行的是哪个版本的 Java 有没有办法写代码找出来 Package Explorer 中的 JRE System Library JavaSE 1 6 是正确的版本吗如果您想检查您的 vm eclipse
在 WiX 中如何通过名称选择 IIS 网站？

我想做的是向安装程序用户显示其服务器上的网站列表并允许他们选择一个使用此处描述的方法 http www cmcrossroads com content view 13160 120 http www cmcrossroads com
带有 Tensorflow 后端的 Keras 的 K.function 方法是否适用于网络层？

我最近开始使用 Keras 构建神经网络我构建了一个简单的 CNN 来对 MNIST 数据集进行分类在学习我使用的模型之前K set image dim ordering th 为了绘制卷积层权重现在我正在尝试用以下方法可视化卷积层输
Oracle 根据年份选择日期返回不一致的结果

我修改过的 Oracle 视图遇到了一个特殊问题我的想法是我有一个基表用于存储所有选举候选人并且还有一个选举日期列告诉我们该候选人参加了哪次选举就像这样 NAME ELECTION DATE John Smith 01 APR
条件语句中逗号有什么好处？

我们可以写一个if声明为 if a 5 b 6 thisMustBeTrue 并且只有满足最后一个条件才能进入if body 为什么允许稍微改变一下你的例子假设是这样的 if a f 5 b f 6 thisMustBeTrue a b
CSS 媒体查询不起作用[重复]

这个问题在这里已经有答案了我一直尝试在 CSS 文档中进行媒体查询执行以下操作 media screen and max device width 480px css here 但当我在 iPhone 上测试时它不起作用我尝试过更改
fread into struct 读取数据不正确

我正在尝试将位图 bmp 图像标题读入struct in c typedef unsigned short WORD typedef unsigned long DWORD typedef struct BITMAPFILEHEADER W
iOS - 当字符串以算术运算符 + - * / 开头时，NSPredicate string.length 始终计算为 0

我有一个简单的方法使用 NSPredicate 返回 comments length gt 0 的行数问题是我发现当 Comment 列以或开头时长度属性的计算结果始终为 0 因此该行被排除在计数之外我在 SQLite 浏览器
如何为与文本相关的 Angular Material 的 mdRadioButton 指令设置垂直对齐？

如何设置垂直对齐mdRadioButton的指令Angular Material与文字有关我都尝试过layout align and vertical align样式但是单选按钮始终与文本相关居中对齐 here http plnkr c
如何向 mvn spring-boot:run 启动的程序添加 JVM 选项

将 JVM 选项添加到启动的程序的最佳方法是什么mvn spring boot run 您可以配置spring boot maven plugin运行时始终包含 jvm 选项
gnuplot 中的粗体增强文本

更新此问题已在 gnuplot 的较新版本 gt 5 0 中得到解决请参阅 andyras 的回答我很难让 gnuplot 在非 postscript 终端中创建带有粗体和增强文本的标签以下脚本 usr bin env gnuplo
在 DSE 中何时使用 Cassandra 与 Solr？

我使用 DSE 进行 Cassandra Solr 集成以便数据存储在 Cassandra 中并在 Solr 中建立索引很自然地分别使用 Cassandra 处理 CRUD 操作和使用 Solr 进行全文搜索并且 DSE 确实可以简化

在 DSE 中何时使用 Cassandra 与 Solr？

在 DSE 中何时使用 Cassandra 与 Solr？ 的相关文章

随机推荐

热门标签

在 DSE 中何时使用 Cassandra 与 Solr？的相关文章