何时考虑 Solr

2024-03-18

我正在开发一个应用程序，需要通过搜索来做有趣的事情，包括全文搜索、命中突出显示、分面搜索等......

该数据集可能有 3000-10000 条记录，每条记录有 20-30 个字段，并且全部存储在 MySQL 中。该网站的流量概况可能是中小型。

所有这些要求都可以在 MySQL 中（笨拙地）实现，但是在什么时候（就数据大小和流量水平而言）值得考虑更集中的技术，例如 Solr 或 Sphinx？

这个问题需要一个非常广泛的答案，需要从各个方面来回答。在特殊用例中，有一些特定的细节可能会使一个系统优于另一个系统，但我想在这里介绍一些基础知识。

我将完全以 Solr 作为几个功能大致相同的搜索引擎的示例。

我想从一些确凿的事实开始：

您不能依赖 Solr/Lucene 作为安全数据库。有一系列事实，但它们主要包括缺少恢复选项、缺乏酸性事务、可能的复杂性等。如果您决定使用 solr，则需要从其他来源（如 SQL 表）填充索引。事实上，solr 非常适合存储包含来自多个表和关系的数据的文档，否则需要构建复杂的联接。
Solr/Lucene 提供令人兴奋的文本分析/词干提取/全文搜索评分/模糊功能。 MySQL 无法做到的事情。事实上，MySql 中的全文搜索仅限于 MyIsam，并且评分非常微不足道且有限。对字段进行加权、根据某些指标增强文档、根据短语邻近度对结果进行评分、匹配准确性等是非常艰巨的工作，几乎是不可能的。
在 Solr/Lucene 中你有文档。你无法真正存储关系和过程。当然，您可以在某个文档的多值字段内对其他文档的键进行索引，这样您就可以实际存储 1:n 关系，并以两种方式获取 n:n，但会产生数据开销。不要误会我的意思，它对于很多用途来说都是完美且高效的（例如，对于某些产品目录，您想要存储产品的经销商，并且您只想搜索某些经销商或其他地方提供的零件）。但你会因为“有”/“没有”而到达可能性的尽头。您几乎不能做“获取至少 3 个经销商提供的所有产品”之类的事情。
Solr/Lucene 具有非常好的分面功能和搜索后分析。例如：在进行了 40000 次匹配的非常广泛的搜索之后，您可以显示，如果您将搜索细化为将此字段设置为该值，而将该字段设置为该值的组合，则您只会获得 3 次匹配。需要在 MySQL 中进行额外查询的事情可以高效且方便地完成。

那么我们总结一下

Lucene 的强大之处在于文本搜索/分析。由于反向索引结构，它的速度也快得令人难以置信。确实可以做很多后期处理，满足其他需求。尽管它是面向文档的并且没有像 SPARQL 中的三元组存储那样的“图形查询”，但可以存储和查询基本的 N:M 关系。如果您的应用程序专注于文本搜索，如果您没有充分的理由（例如非常复杂的多维范围过滤器查询），那么您绝对应该选择 Solr/Lucene。
如果您没有文本搜索，而是可以点击某些内容但不能输入文本，那么旧的关系数据库可能是更好的选择。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mysql

performance

Solr

何时考虑 Solr 的相关文章

CSV 损坏，如何修复？

我正在尝试解析 CSV 我想将它放入数据库或只是用 JavaScript 解析它但由于语法损坏任何一种方法都会失败我的整个 CSV 文件在这里 https gist github com 1023560 https gist gith
使用一条语句在 MySQL 中添加多列

我试图将多个列添加到 phpMyAdmin 中的现有表中但我不断收到相同的错误 1064 你的 SQL 语法有错误检查与您的 MySQL 服务器版本相对应的手册以获取正确的语法我在写信 ALTER TABLE WeatherCente
使用 OpenMP 时无用的 printf 没有加速

我刚刚编写了第一个 OpenMP 程序它并行化了一个简单的 for 循环我在双核机器上运行代码发现从 1 个线程变为 2 个线程时速度有所提高然而我在学校 Linux 服务器上运行相同的代码并没有看到加速在尝试了不同的事情之后
浮点转换和性能

我知道在浮点数和整数之间进行转换时可能会出现错误但是性能如何请忽略准确性问题一般来说如果我对不同算术类型的操作数即不同的浮点类型例如 float and double 和浮点整数类型组合例如float and int 是否存
将solr 1.4索引升级到solr 3.3？

我有一个使用 apache solr 1 4 构建的现有索引我想在 3 3 版本中使用这个现有索引正如您所知索引格式在 3 x 之后发生了变化那么如何才能做到这一点呢我已经使用 Luke 将现有索引即 1 4 版本导出为 XM
PHP、MySQL、PDO 事务 - fetchAll() 可以在 commit() 之前吗？

更多交易问题我现在拥有的是一堆串在一起的查询如果有任何失败都会手动反转代码块1 stmt1 db gt prepare Update table1 set col col 1 if stmt1 db gt execute stmt2
Docker容器CPU使用率监控

根据 docker 的文档我们可以通过以下方式获取 docker 容器的 CPU 使用率码头工人统计命令 CPU 列将给出容器正在使用的主机 CPU 的百分比假设我限制容器使用 50 的主机单个 CPU 我可以通过 cpus 0 5 选
如何通过csv文件仅更新sql表的一列

我有一个 csv 文件包含一些数据在我的 Sql 数据库中我有一个具有多个列名的表现在我只想通过 csv 文件更新一列谢谢你可以这样尝试 Import the csv file to a temp table Update you
PostgreSQL：存在与左连接

我多次听说 postgres 处理exists查询速度更快左连接 http archives postgresql org pgsql performance 2002 12 msg00185 php http archives postg
SQL Server 与 MySQL：CONTAINS(*,'FORMSOF(THESAURUS,word)')

我很震惊当我在 SQL Server 中看到查询非常简单时我花了 3 4 天弄清楚如何在 mysql 中实现词干提取和同义词搜索 Select from tab where CONTAINS FORMSOF THESAURUS wor
用索引更新表太慢

我正在观察我们应用程序的实时系统上的探查器我发现我们定期每秒运行一条更新指令速度相当慢每次大约需要400ms 查询包含此更新这是缓慢的部分 UPDATE BufferTable SET LrbCount LrbCount 1 L
MySQL：错误 1215 (HY000)：无法添加外键约束

我读过了数据库系统概念第六版西尔伯沙茨我将在 OS X 上的 MySQL 上实现第 2 章中所示的大学数据库系统但我在创建表格时遇到了麻烦course 桌子department好像 mysql gt select from depa
读取 CSV 文件单列的更快方法

我正在尝试阅读一个列CSV文件至R尽快我希望将标准方法将列放入 RAM 所需的时间减少 10 倍我的动机是什么我有两个文件一个叫Main csv这是 300000 行和 500 列其中一个称为Second csv即 300000
数据库表可以没有主键吗？

谁能告诉我关系数据库例如MySQL SQL SERVER 中的表是否可以没有主键例如我可以有桌子day temperature 我注册的地方temperature and time 我不明白为什么要为这样的表设置主键从技术上讲您可
使用 MySQL 5、简单成员资格提供程序、ASP.NET MVC4 和实体框架 5

我在尝试着使用 ASP NET MVC 4 对 MySQL 使用基于简单成员资格提供程序的身份验证默认 Web 应用程序配置为使用 MySQL 使用以下给出的教程 http www nsilverbullet net 2012 11 07
返回空字符串：C++ 中的有效方法

我有两种从函数返回空字符串的方法 1 std string get string return 2 std string get string return std string 哪一种更有效为什么 Gcc 7 1 O3 这些都是相同的
MySQL如何获取可能重叠日期的开始/结束日期之和

我有一个开始结束日期表我想按 id 对其进行分组并对每个 id 的总时间进行求和例如 fk id start end 3 2014 03 21 10 02 2014 05 01 08 05 3 2014 06 05 05 00 201
MySQL 中复制一条记录

我有一个表我想复制表中的特定行我知道这不是最好的方法但我们正在寻找快速解决方案这比我最初想象的要难我需要做的就是将整个记录复制到 MySql 中自动增量表中的新记录而不需要指定每个字段这是因为该表将来可能会发生变化并且可能会
PHP md5() 给出与 MySQL md5 不同的输出

我正在尝试设置登录系统但无法解决一个问题 PHP 通过 md5 给了我另一个输出比MySQL 例如在 PHP 中 password md5 brickmasterj return password 返回 3aa7b18f304e2e2
将文件保存为 MYSQL 数据库中的 blob 或文件路径

我知道这些问题是常见问题之一但我需要您针对具体案例提供帮助我正在开发一个应用程序其中一些用户可以添加订单一些用户可以执行这些订单这些订单非常具体因此只有有限数量的用户可以添加它们然后为每个订单生成三个文档每个文档的大小不超

随机推荐

如何在iOS上嵌入YouTube视频并直接在UIWebView上播放而不全屏？

我正在使用此代码在 iOS 上播放 YouTube 视频 void embedYouTube NSString urlString frame CGRect frame NSString htmlString NSString string
IBM Worklight 6.0 - 构建问题

我只是运行一个测试应用程序我的构建失败并显示以下日志我尝试过重新启动更改工作区创建测试应用程序但没有成功请告诉我 ipad build failed Cannot overwrite template file Users ms
如何删除magento中产品图片的缓存url

对于我的所有 magento 产品图像我从缓存 url 获取图像如何禁用它并使我的产品图像使用原始 url 我已在 public html dirname app code core Mage Catalog Helper image
Next.js 动态路由在部署时无法正常工作

我使用 Next js 构建了一个网站其中有以下文件夹结构 pages path index js for students path index js index js events js 在本地开发中一切都运行良好动态路由使用get
使用 Java 在 Selenium WebDriver 中聚焦元素的正确方法

相当于什么selenium focus 对于网络驱动程序 element sendKeys or new Actions driver moveToElement element perform 我已经尝试过它们并且它们都有效但是哪一个总
为什么 std::function 不能接受推导类型作为其模板参数？

include
Corda 企业节点上的 PostgreSQL 引发关系错误

在 docker 容器中使用 PostgreSQL 运行 corda enterprise 我已按照文档中的说明进行操作并设置了数据库架构在数据库启动时我看到以下错误任何人都可以帮助那里发生了什么事吗 2018 10 11 06 57
ASP.Net MVC5 和 StructureMap4 - 简化方法

在整合的同时结构图 MVC5 https www nuget org packages StructureMap MVC5 到一个 ASP Net MVC5 Web 应用程序意识到它使用 3 1 版本的 SM 而不是 4 然后尝试获取此
Swift：按下 UITabBarItem 时如何执行操作

目前我有一个连接到表格视图控制器的选项卡栏控制器当我按下标签栏项目时我试图转到表格视图的顶部我知道如何到达桌面视图的顶部我只是不知道按下该项目时如何执行操作你应该使用UITabBarDelegate用方法didSelectItem
如何正确使用 codeigniter 发送电子邮件的方式

嘿伙计我正在尝试使用 codeigniter 邮件类函数发送电子邮件但我发现 smtp 协议有问题我使用gmail smtp协议我在本地机器上运行这个我正在使用 Xampp 1 7 4 包并且我尝试过如下设置 function
.htaccess 将图像从旧文件夹重定向到新文件夹

我刚刚从 Drupal Wordpress 迁移到完全用 WordPress 构建的网站我有一组图像其中文件不再存在需要尝试将所有图像保留在一个文件夹中如果可能我需要发送对任何 gif png jpg 的请求http www do
Innosetup 添加多个 exe 文件并在主设置中执行

我想知道如何添加额外的安装 exe 并使用 innosetup 与我的主 exe 一起执行额外的 exe 请帮助我因为我在过去 3 天里一直在尝试这个因为我是 innosetup 的新手谢谢最简单的方法是在 Run 部分调用附加的
CouchDB 文档更新处理程序（就地更新）

http wiki apache org couchdb Document Update Handlers http wiki apache org couchdb Document Update Handlers CouchDB 0 10
如何切换不同版本的gem安装？

我在本地计算机上安装了三个版本的机架 rack 1 4 1 1 3 6 1 3 5 对于某些宝石例如Cucumber 它需要较低版本rack被激活我尝试过bundle但也没有什么好处执行时 cucumber仍将使用激活的机架版本1 4
反汇编Java字节码的Java程序[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我最近正在阅读有关字节码分析的内容我需要以下查询的帮助如果我想编写一个反汇编 Java 字节码通过读取类文件并打印操作码的 J
如何在 MVC 4 中实现自定义 OpenID 依赖方

我喜欢新的 MVC OpenID OAuth 登录功能但我想知道如何添加新的登录按钮例如我希望我的用户使用他们的 StackExchange 帐户或使用他们的 OpenID url 登录就像在 stackoverflow 中一样htt
Fiddler 重新发行以及作曲家编辑和重新发行

我在日常生活中使用 Fiddler 然而对我来说最常用的功能例如Reissue and Edit and Reissue from composer没有任何捷径我不知道如何为此使用 fiddler 脚本有人能指出这个问题的解决方案吗
如何使用 Material ui Reactjs 禁用今天日期中的过去日期？

我正在使用 React Material ui 创建日期范围选择器我此功能背后的逻辑是选择所需日期如果已选择所需日期则禁用所选日期中的所有过去日期如何实现这个react材质ui 这是我的代码 import React from re
struts 2将属性标签的值分配给隐藏字段

我想将字段描述中的值分配给隐藏字段测试但问题是描述包含单词序列并且以下代码仅将第一个单词分配给测试
何时考虑 Solr

我正在开发一个应用程序需要通过搜索来做有趣的事情包括全文搜索命中突出显示分面搜索等该数据集可能有 3000 10000 条记录每条记录有 20 30 个字段并且全部存储在 MySQL 中该网站的流量概况可能是中小型所有这些

何时考虑 Solr

何时考虑 Solr 的相关文章

随机推荐

热门标签