solr过滤器实际上是如何实现的？

2023-12-27

我对查询处理的理解是否正确？

从缓存中获取 DocSet 或第一个过滤器查询将创建 OpenBitSet 或 SortedVIntSet 的实现并缓存它
从缓存中获取 DocSet 或所有其他过滤器创建它们的 DocBitSet 实现，并将与原始 (该代码的效率取决于 DocSet 的第一个实现的实现)
我们使用 Lucene 过滤器+查询搜索（在所有交叉点之后）对 MainQuery 和最终 DocSet 进行跨越（其效率取决于第一个 DocSet 实现)
我们应用后置过滤器（成本> 100 && 缓存== false）作为原始查询的AND

因此，性能将取决于第一过滤器因为对于小型查询 SortedIntSet 更有效，而对于大型 BitSet 则更好。我对么？

问题的第二部分: DocSet 有两个主要实现 - HashDocSet 和 SortedIntDoc，每个交集实现都会迭代第一个过滤器中的所有实例，并检查它是否也在第二个 DocSet 中...这意味着我们必须按大小对过滤器进行排序，首先是最小的。是否可以控制缓存过滤器的顺序（成本仅适用于非缓存过滤器）？

这听起来不错。欲了解更多信息，请查看SolrIndexSearcher#getProcessedFilter http://grepcode.com/file/repo1.maven.org/maven2/org.apache.solr/solr-core/4.0.0-ALPHA/org/apache/solr/search/SolrIndexSearcher.java#SolrIndexSearcher.getProcessedFilter%28org.apache.solr.search.DocSet,java.util.List%29.

因此，性能将取决于第一个过滤器，因为对于小型查询 SortedIntSet 更有效，而对于大 BitSet 则更好。我对么？

这更多的是空间效率问题而不是速度问题。一个排序的 int[] 花费 4 * nDocs 字节，而一个位集花费 maxDoc / 8 字节，这就是为什么 Solr 在集合中的文档数量

问题的第二部分：DocSet 有两个主要实现 - HashDocSet 和 SortedIntDoc

SortedIntDocSet 的问题是它不支持随机访问，而 HashDocSet 的问题是它无法按顺序枚举文档 ID，而这对于评分可能很重要。这就是为什么 Solr 几乎在任何地方都使用 SortedIntDocSets，并在需要随机访问时创建临时 HashDocSet（例如，查看 JoinQParserPlugin 或 DocSlice#intersect）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

solr过滤器实际上是如何实现的？的相关文章

MySQL 5.6 InnoDB 全文搜索

我意识到 MySQL 5 6 仍处于测试阶段但是有人有使用新的 InnoDB FTS 引擎的经验吗它与狮身人面像之类的东西相比如何谢谢贾森从未使用过 Sphinx 但在大约 170k 行的 Innodb 表上尝试过 MySQL 5
solr索引嵌套文档

solr支持嵌套文档吗有没有更好的方法来实现这种文档
本地/离线网站“站点”的全文搜索[重复]

这个问题在这里已经有答案了可能的重复通过 javascript 对 CD Rom 上的静态 HTML 文件进行全文搜索 https stackoverflow com questions 1357173 full text search
在具有多个 Web 服务器的现有 .NET / SQL Server 堆栈上实施 Lucene

我想考虑使用 Lucene 为我当前管理的网站提供全文搜索解决方案该网站完全基于 SQL Server 2008 C NET 4 技术构建我要索引的数据实际上非常简单每个记录只有几个字段并且只有其中一个字段实际上是可搜索的我不清楚
Solr 4.0 中的 BaseTokenFilterFactory 去哪儿了？

用于创建您自己的标记和字符过滤器的 Solr 文档说明如下 http wiki apache org solr AnalyzersTokenizersTokenFilters Specifying an Analyzer in the sc
apache solr：group by 产生的数据总和

我们有一个要求需要按特定字段对记录进行分组并获取相应数字字段的总和前任 select userid sum click count from user action group by userid 我们尝试使用 apache solr
将solr 1.4索引升级到solr 3.3？

我有一个使用 apache solr 1 4 构建的现有索引我想在 3 3 版本中使用这个现有索引正如您所知索引格式在 3 x 之后发生了变化那么如何才能做到这一点呢我已经使用 Luke 将现有索引即 1 4 版本导出为 XM
Django 全文搜索优化 - Postgres

我正在尝试利用 Django v2 1 和 Postgres 9 5 创建一个地址自动完成功能的全文搜索但性能目前不适合自动完成我不明白逻辑我得到的绩效结果背后就信息而言该表相当大有 1400 万行我的型号 from djang
如何添加到 OrientDB 中的空间索引？

我正在使用工作室的 OrientDB 2 0 我使用文档中的代码成功创建了 Lucene 空间索引 CREATE class Place extends V CREATE property Place name string CREATE
使用 gin 索引和 sqlalchemy 返回排名搜索结果

我为全文搜索设置了 GIN 索引我想获取与搜索查询匹配的记录列表按排名排序记录与搜索查询的匹配程度对于结果我只需要记录及其列不需要用于排序的实际排名值我有以下查询它运行良好并从我的 postgresql 数据库返回预期结果
Solrcloud Zookeper 设置：等待 4000ms 后未找到注册的领导者，集合：c1 切片：shard2

我使用 solr 4 10 3 我通过 java 中的嵌入式 jetty 服务器启动 solr 我正在尝试使用 2 个分片领导者配置 solrcloud 我有一个外部动物园管理员设置我在启动 solr 时指向动物园管理员实例如下所示
Google 自定义搜索优化以获取最新结果

我在我的网站上使用谷歌自定义搜索引擎我对此自定义搜索有两个改进细化1 在我的博客上搜索细化2 搜索我朋友的博客但我需要第三次改进搜索两个网站的最新结果或过去 24 小时的结果我可以在细化中添加一些可以做到这一点的运算符吗或者
MySQL 全文搜索之谜

我们的网站上有一个使用 MySQL 全文搜索的简单搜索但由于某种原因它似乎没有返回正确的结果我不知道这是否是 Amazon RDS 我们的数据库服务器所在的位置或我们请求的查询的某种问题这是数据库表的结构 CREATE TABLE
cursorMark是无状态的以及它如何解决深度分页

作为指定here https cwiki apache org confluence display solr Pagination of Results光标标记是无状态的但我不明白它是如何解决无状态的深度分页问题的 solr 是否按唯一
如何使用 lucene 查询找到空的 Solr 文档字段

我有一些这样的文件
MultiFieldQueryParser 正在从首字母缩略词中删除点

我再次发布这个问题因为我的查询没有得到答复我正在使用 Lucene 开发图书搜索 api 用户可以搜索标题或描述字段包含 C F A 的书籍我正在使用 StandardAnalyzer 以及停用词列表我使用 MultiFieldQu
我可以以编程方式配置 PostgreSQL 以不消除全文搜索中的停用词吗？

我正在使用 PostgreSQL 全文搜索来进行项目其中传统停用词 a the if 等应该被索引和可搜索这不是默认行为例如我可能希望我的用户找到查询 to be or not to be 的结果 The 文档 http www
由于未定义符号，PECL solr 未加载：curl_easy_getinfo

我正在尝试加载 PECL solr 扩展我尝试使用 pecl install solr 并下载并使用 phpize configure make 来安装它在这两种情况下扩展安装时都没有错误但在 apache 重新启动后或在命令行上
在一个后台为MYSQL的网站上集成搜索

我有一个位置搜索website http www jammulinks com对于一个城市我们首先收集该城市所有可能类别的数据如学校学院百货商店等并将其信息存储在单独的表中因为每个条目除了名称地址和电话号码外都有不同的详细信息
MySQL 可选的带有 MATCH 的 LEFT JOIN

我有以下查询它对 MySQL Innodb 数据库中同一搜索词的两个不同表中的两列执行全文搜索 SELECT Id MATCH tb1 comment tb2 comment AGAINST search term IN BOOLEAN

随机推荐

画布 - 调整图像大小并复制到另一个图像中

是否有 jQuery 插件或代码可以用来调整图像或画布带有此图像的大小并将其复制到另一个图像或画布中图片 2 是编辑想法也许可以利用 moz transform scale sx sy webkit transform s
设置我的可绘制目录以支持新的 Dell Streak 而又不失去对旧设备的支持的正确方法是什么？

这似乎是一个普遍存在的问题 http blog alsutton com 2010 07 03 android tablets and mdpi large 我有以下可绘制目录 drwxr xr x 18 mike staff 612 Fe
检测用户是否在 UITextField 中输入内容

我知道如果您使用以下代码行您可以检测用户在文本视图中键入的内容 if textView text isEqualToString 我想检测用户是否在文本字段中输入了任何内容但这不适用于文本字段我应该改变什么感谢您的帮助 The UI
连接无法转换为 oracle.jdbc.OracleConnection

为什么下面的代码中 java sql Connection 无法转换为 oracle jdbc OracleConnection 我的主要目标是将新用户名传递给 Oracle 连接并将其保存在 SESSION 表中例如 osuser 列中
如何在R中的文件列表中选择具有不同扩展名的多个文件

我有一个包含许多子目录的文件夹其中包含许多不同类型的文件我只需要选择具有以下扩展名 txt 和 shp 的文件我尝试将模式与和一起使用组合但似乎不起作用的运算符仅选择最后写入的文件格式在下面的代码中它仅选择 shp 文件
全文搜索：正在搜索干扰词

我有一个带有全文搜索索引的 SQL Server 2008 数据库我已在非索引字列表中定义了非索引字 al 然而当我搜索任何带有关键字 al 的短语时 al 一词仍然会出现在排名中这可能与我正在分解搜索词并重建它们有关然后我在多个领
无法在 MongoDb C# 上使用带有嵌套类 List<> 的 Linq

我有以下课程 public class Company BsonId public string dealerId null public List
为什么AppCompat不支持当前主题功能windowActionBar: false

为什么 AppCompat 不支持当前主题功能 windowActionBar false windowActionBarOverlay false android windowIsFloating false windowActionMo
php使用特殊符号

这提供了一个可点击的链接名称个人资料但如果个人资料为空它会显示如何改进它以便当个人资料记录为空时它什么也不显示您有许多不必要的打开和关闭 php 标签鉴于您的代码您应该只使
按功能将 MySQL 存储分配到驱动器

我想知道 MySQL 是否有能力指定将属于某个帐户例如代表特定应用程序或特定公司程序的数据存储在文件系统中的某个特定位置例如特定驱动器或 RAID 而不是将其捆绑在由 MySQL 为该服务器上的每个人管理的所有其他帐户表和数据元素
如何将 Pandas groupby 结果广播到所有行？

使用 Pandas 1 0 1 给定这个演示数据框我想用在子组框上计算的中值替换数字列重量和价格不修改原始数据框 import pandas as pd import numpy as np df pd DataFrame box
如何将 Perl 脚本的输出包含到 PHP 页面中？

我们被要求在新站点上支持一些相当旧的 Perl 表单因为我们使用的是基于 PHP 的 CMS 所以我们需要将 Perl 脚本包含到新的 CMS 中我尝试了一些 shell exec 但它被禁用了有人有什么想法吗 Perl 扩展有一个
ISO C++ 禁止声明没有类型的“某物”

我是 C 模板编程的新手所以我决定从编写模板列表开始我在线收到此错误Node
Rails 4. 模型中的国家/地区验证

我正在创建 Rails API 并且想要添加对国家地区字段的验证该字段包含模型级别的 ISO 3166 1 代码例如如果使用 gem卡门铁路 https github com jim carmen rails 它只提供帮助者count
读取数组或列表中的 SQL Server 列

我想知道如何将 sql server 数据库中的列中包含的值复制到Array or a List 我在用着C 在 Web 应用程序项目 ASP NET 中提前致谢 using SqlConnection cnn new SqlConnec
调用另一个类中的过程

我已经为 Outlook 2010 创建了一个加载项我有一个带有按钮的功能区当您单击该按钮时我希望它调用 ThisAddIn vb 中的过程有两个文件 ThisAddin vb 和 Ribbon vb 我尝试了几件事但无济于事我也
Play 框架中的 Twitter bootstrap helper 是否已弃用？

我经常在我的 Web 应用程序中使用 Twitter 引导表单模板助手因为这非常简单昨天我想创建一个带有水平字段的表单可以在 GitHub 上找到请求请求 https github com playframework Play20 p
一键更新所有 WCF 服务引用（单击两次也可以！）

我有多个项目其中包含多个 WCF 服务引用我的 WCF 服务处于不断变化的状态因此我经常需要四处走动并更新我的所有服务引用有没有办法通过一次操作来实现这一目标好吧除了使用 IDE 您还可以使用svcutil通过构建脚本在命令行上
如何在 Spring MVC 控制器中映射动态 url /prj/noticeOpen/2

您好我很难处理以下网址 a href noticeOpen 2 dynamicLink a 使用以下控制器方法进行映射 RequestMapping value noticeOpen quesId public ModelAndView
solr过滤器实际上是如何实现的？

我对查询处理的理解是否正确从缓存中获取 DocSet 或第一个过滤器查询将创建 OpenBitSet 或 SortedVIntSet 的实现并缓存它从缓存中获取 DocSet 或所有其他过滤器创建它们的 DocBitSet 实现并将与

solr过滤器实际上是如何实现的？

solr过滤器实际上是如何实现的？ 的相关文章

随机推荐

热门标签

solr过滤器实际上是如何实现的？的相关文章