MongoDB 文本索引搜索大表中常见单词的速度很慢

2023-12-24

我正在为一项服务托管一个 mongodb 数据库，该服务支持对包含 680 万条记录的集合进行全文搜索。

其文本索引包括十个不同权重的字段。

大多数搜索只需要不到一秒钟的时间。有些搜索需要两到三秒。然而，有些搜索需要 15 - 60 秒！ 15-60秒的搜索案例对于我的应用来说是不可接受的。我需要找到一种方法来加快速度。

当搜索查询中使用索引中非常常见的单词时，搜索需要 15-60 秒。

我似乎文本搜索功能不支持惰性参数。我的第一个想法是在我的文本索引中缓存 50 个最常见单词的列表，然后要求 mongodb 评估最后的（懒惰的）以及不太常见的参数返回的过滤结果。希望人们仍然和我在一起。例如，假设我有一个查询“产品巧克力”，其中产品很常见，而巧克力不常见。我希望能够要求 mongodb 首先评估“巧克力”，然后使用“产品”术语过滤这些结果。有谁知道如何实现这一目标？

我可以通过从数据库查询中省略最常见的单词（即“产品”），然后在收到数据库找到的记录后在应用程序端重新应用常见术语过滤器来实现上述场景。最好所有查询逻辑都发生在数据库上，但我对应用程序端处理持开放态度，以加快支付速度。

这个设计仍然存在一些漏洞。如果用户只搜索常用术语，我别无选择，只能用所有术语访问数据库。从初步阅读来看，我认为不建议（或不支持）在同一集合上有多个文本索引（具有不同的名称）。我的计划是创建两个相同的表，每个表都有我的 680 万条记录，并具有不同的索引 - 一个用于常见单词，一个用于不常见单词。这感觉很笨拙，但我愿意这样做以提高速度。

有谁对如何加速这个系统有任何见解和/或建议。我希望在数据库上进行尽可能多的处理以保持快速。我确信我的 6.8M 记录表不是 mongodb 见过的最大的。谢谢！

我通过允许 MongoDB 全文搜索以基于 OR 的格式进行搜索来解决这些性能问题。我通过微调索引字段的权重并按排名排序来确定结果的优先级。我确实得到了比预期更多的结果，但这并不是一个大问题，因为出现在顶部的加权结果很可能会在我的用户获得底部不太相关的结果之前被消耗掉。

如果有人在仅使用 AND 搜索时遇到 MongoDB 文本搜索性能问题，只需切换回 OR 并使用权重控制结果即可。它的跳跃性能更好。

hth

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MongoDB 文本索引搜索大表中常见单词的速度很慢的相关文章

mongoid 中的嵌入文档与哈希数据类型

我找不到任何讨论此问题的博客文章或文档它们嵌入式文档和哈希数据类型非常相似彼此相比有何好处或限制考虑我的架构设计 class HistoryTracker include Mongoid Document include Mong
将 mongo 数组转换为具有键值对的对象

我有一个包含字符串数组的 mongo 文档我需要将这个特定的字符串数组转换为包含键值对的对象数组以下是我目前的做法 id ObjectId 57e3720836e36f63695a2ef2 platform A1 available C
嗖嗖 - 访问 search_page 结果项会引发 ReaderClosed 异常

下面是一个简单的分页函数 from whoosh import index def search q wix index open dir settings WHOOSH INDEX DIR term Term title q Term c
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
多文档事务在使用 mongodb 4.08 社区服务器的 C# 中不起作用

我需要使用 mongodb 事务更新多个文档 mongodb 社区服务器版本是 4 08 net 的 mongodb 驱动程序是 2 9 beta 也尝试过 2 8 从调试中我可以看到它执行了 session AbortTransacti
为 MongoDB 中的对象数组建立索引

我有一个巨大的电子邮件转储我正在尝试在 MongoDB 中存储和查询它有 160 万封电子邮件每封电子邮件都存储为节点模块 https github com andris9 mailparser它将原始电子邮件解析为漂亮的 Javas
在java中将RFC3339 DateTime转换为Date [重复]

这个问题在这里已经有答案了如何转换RFC 3339 https www rfc editor org rfc rfc3339java 中的 com google api client util DateTime 到 DateTime 例如
有没有办法提高linux管道的性能？

我正在尝试使用 64 位将超高速数据从一个应用程序传输到另一个应用程序CentOS http en wikipedia org wiki CentOS6 我使用以下方法进行了基准测试dd发现阻碍我的是管道而不是程序中的算法我的目标是达到
MongoDB 存储过程等效项

我有一个包含商店列表的大型 CSV 文件其中一个字段是邮政编码我有一个名为 ZipCodes 的独立 MongoDB 数据库它存储任何给定邮政编码的纬度和经度在 SQL Server 中我将执行一个名为 InsertStore 的
为什么在 data.frame 中预先指定类型会比较慢？

我预先分配了一个大 data frame 以便稍后填写我通常这样做NA是这样的 n lt 1e6 a lt data frame c1 1 n c2 NA c3 NA 我想知道如果我预先指定数据类型是否会让事情变得更快所以我测试了 f1
为关联数组选择哪种映射类型？学说ODM

我有一个关于顺便说一句真的很棒 Doctrine ODM 的简单问题假设您有一个类似以下的文档 Document class Test Id public id WHICHTYPE public field array 现在我想存储一
C++ OpenCV imdecode 慢

我将图像的字节数组从 C 发送到 C 库我使用 OpenCV 版本 3 3 1 解码图像 BMP 图像解码速度很快但 JPEG 图像解码速度很慢如何加快 JPEG 图像的解码时间多线程 GPU 解码性能 Resolution For
如何使用 Java2D 创建硬件加速图像？

我正在尝试创建一个快速图像生成器它可以执行大量 2d 转换和形状渲染因此我尝试使用 BufferedImage 然后获取 Graphics2D 对象来执行所有绘图我现在主要关心的是 make 速度非常快所以我创建一个像这样的 Buf
CoreAnimation 性能分析 - CAReplicatorLayer 与 CAShapeLayer

我正在制作一个依赖 CoreAnimation 的应用程序它有一个 CAReplicatorLayer 和一个 CAShapeLayer 作为子层当进行 12 次复制然后对路径进行动画处理在 touchMoved 上更改它时一旦
为什么在 this 方法中添加 If 语句会大大降低速度？

我在中遇到过这个回答另一个问题 https stackoverflow com questions 12233594 faster way to apply alpha to a jpeg in an android app 我试图诊断哪些
如何清除chrome性能条目或绕过其数量限制？

我使用 Google Chrome 来分析一些使用 Javascript 动态加载脚本和其他资源的网页的性能我用performance getEntries 方法但我注意到 Chrome 只记录前 150 个资源我找不到任何方法来获取
为什么我的代码在编译用于分析 (-pg) 时在多线程下运行比在单线程下运行慢？

我正在写一个光线追踪器最近我在程序中添加了线程以利用 i5 四核上的附加内核奇怪的是应用程序的调试版本现在运行速度变慢但优化后的构建运行速度比添加线程之前更快我将 g pg 标志传递给 gcc 以进行调试构建并将 O3 标志
非规范化如何提高数据库性能？

我听说过很多关于非规范化的内容它是为了提高某些应用程序的性能而进行的但我从来没有尝试过做任何相关的事情所以我只是好奇规范化数据库中的哪些地方会使性能变差或者换句话说非规范化原则是什么如果我需要提高性能如何使用此技术非规范
国外收藏的查找和排序

所以我有一个收藏users 并且此集合中的每个文档以及其他属性都有另一个集合中文档的 id 数组 workouts 集合中的每个文档workouts有一个名为date 这就是我想要得到的对于特定用户我想要获取属于该用户的锻炼的 work
我必须做什么才能使通过 HTTPS 提供的图像等内容缓存在客户端？

我使用 Tomcat 作为服务器使用 Internet Explorer 6 作为浏览器我们应用程序中的网页大约有 75 张图像我们正在使用 SSL 加载所有内容似乎非常慢如何配置 Tomcat 以便 IE 缓存图像如果您通过 h

随机推荐

在 Java 中将字符串转换为十六进制

我正在尝试将像 testing123 这样的字符串转换为java中的十六进制形式我目前正在使用BlueJ 而将其转换回来除了向后转换之外是一样的吗这是将其转换为十六进制的简短方法 public String toHex String
如何在Python请求中使用相同的键发布多个值？

requests post url data interests football interests basketball 我尝试过这个但它不起作用我该如何发帖football and basketball in the intere
SQLSTATE[HY000]：一般错误：1835 LARAVEL 上的通信数据包格式错误

突然得到 SQLSTATE HY000 一般错误 1835 格式错误的通信数据包 SQL select fromtb users where username 121211 限制 1 在 Laravel 上我已经检查过了 MySQL 错误
$.focus() 在 Chrome 中不起作用

在 chrome 的开发者工具控制台中我选择input type text 元素然后尝试专注于它例如 input foo focus 它不起作用没有抛出错误但元素没有聚焦我花了半个小时试图找出这个问题所以我发布这个是为了帮助其他
Neo4j：仅当不存在时如何调用“CREATE INDEX”

The CREATE INDEX
为什么运行“go get golang.org/x/tools/cmd/godoc”时没有创建二进制文件？

godoc and gotour可以从各自的源目录构建和运行go build 原因是什么gotour二进制文件创建时go get事实并非如此godoc 命令行输出 user pc gvm pkgsets go1 5 1 global gt
如何使用 PowerShell 脚本将用户数据添加/更新到位于另一台服务器上的 LDAP Active Directory？

我想添加更新位于另一台服务器上的 Active Directory 数据我有服务器详细信息但我不知道该怎么做但是如果我从同一服务器运行 PowerShell 脚本我知道如何添加更新数据这是我的代码如果我通过位于同一服务器的
通过使用 com.googlecode.mp4parser 添加曲目并有内存限制来从文件创建电影？

我有多个文件中的录音我正在使用以下命令创建一个连续音频文件com googlecode mp4parser isoparser 1 0 2图书馆下面是我的代码 String mediaKey isAudio soun vide List
Git 和 libgit2 之间的区别

我不确定我是否理解两者之间的区别git and libgit2正确因为存储库git不同于libgit2 我的意思是它们不一样我想知道这两个库有什么区别吗 git 不是一个库它是一个命令行工具和 Git 的参考实现 libgit2 是
使用 sklearn 计算两个不同列的单独 tfidf 分数

我正在尝试计算一组查询和每个查询的一组结果之间的相似性我想使用 tfidf 分数和余弦相似度来做到这一点我遇到的问题是我无法弄清楚如何使用两列在 pandas 数据框中生成 tfidf 矩阵我已经连接了两列它工作得很好但使用起
Flutter - VoidCallback 内容未执行

我创建了以下客户小部件 class MainButtonWidget extends StatelessWidget String text TextTheme textTheme new TextTheme IconData icon n
SoapUI - 包含 xsd 的 wsdl 问题

我有一个包含 xsd 的静态 wsdl xsd 和 wsdl 位于同一 XML 命名空间中因此包含 xsd
在 NHibernate 中急切加载一棵树

我在尝试加载树时遇到问题这是我的情况我有一个与自身关联的实体层次结构具有 n 个级别问题是我可以使用 ICriteria 或 HQL 急切地加载整个树吗预先感谢您的任何帮助爱丽儿是的只需设置正确的获取模式即可我将在一分
如何在 YII Active Record 中使用 IN 和 Between 子句？

我想在活动记录中编写以下查询 SELECT FROM User WHERE UserId IN 6 7 8 9 Thanks 您可以使用CDbCriteria陈述 criteria new CDbCriteria criteria gt a
当用户手动滚动时突出显示锚链接？ [复制]

这个问题在这里已经有答案了我为这么长的帖子道歉我想包括所有可能有帮助的内容我有一个单页网站由多个垂直堆叠的 div 组成我正在使用浮动导航栏软滚动 js http scripterlative com files softscro
Matlab：通过补丁的“X射线”情节线

Problem 我试图可视化一个 3D 路径以及它周围代表数据标准差的云我希望能够看到一条粗黑线作为路径周围有均匀的灰色区域线条没有任何浑浊就像通过云看到 X 射线一样 Attempt I used plot3创建一条粗线并pa
通过C#连接Oracle数据库？

我需要通过 Visual Studio 2010 连接到 Oracle DB 外部但我不想在我的计算机上安装 Oracle 在我的项目中我引用了系统数据 OracleClient 但它不能满足需要我有一个 Oracle SQL 开发
php 中的自动加载是什么？ [复制]

这个问题在这里已经有答案了 PHP 中的自动加载是什么这将对您有关 autoload 的使用有所帮助 http ditio net 2008 11 13 php autoload best practices http ditio net
用Python编写分散/聚集套接字

在 POSIX C 中我们可以使用writev一次将多个数组写入文件描述符当您必须连接多个缓冲区以形成通过套接字发送的单个消息例如考虑 HTTP 标头和正文时这非常有用这样我就不需要打电话了send两次一次用于标头一次用于正
MongoDB 文本索引搜索大表中常见单词的速度很慢

我正在为一项服务托管一个 mongodb 数据库该服务支持对包含 680 万条记录的集合进行全文搜索其文本索引包括十个不同权重的字段大多数搜索只需要不到一秒钟的时间有些搜索需要两到三秒然而有些搜索需要 15 60 秒 15 60

MongoDB 文本索引搜索大表中常见单词的速度很慢

MongoDB 文本索引搜索大表中常见单词的速度很慢 的相关文章

随机推荐

热门标签

MongoDB 文本索引搜索大表中常见单词的速度很慢的相关文章