Lucene 7+中如何通过文档ID获取DocValue？

2024-03-07

我正在将 DocValue 添加到文档中

doc.add(new BinaryDocValuesField("foo",new BytesRef("bar")));

检索具有 ID 的特定文档的值docId, I call

DocValues.getBinary(reader,"foo").get(docId).utf8ToString();

The getBinaryDocValues 中的函数最多支持卢塞恩6.6 https://lucene.apache.org/core/6_6_0/core/org/apache/lucene/index/BinaryDocValues.html，但对于卢塞恩7.0 https://lucene.apache.org/core/7_0_0/core/org/apache/lucene/index/BinaryDocValues.html并且似乎不再可用。

So, 如何在 Lucene 7+ 中通过文档 ID 获取 DocValue（无需迭代BinaryDocValues / DocIdSetIterator，并且无需重新获取BinaryDocValues并使用advanceExact每次）？

Theory

Doc Values是Lucene的column-stride字段值存储。文档值的目的是在查询时快速随机访问以进行分面和排序。以下问题LUCENE-7407 https://issues.apache.org/jira/browse/LUCENE-7407将访问模式从随机访问切换为迭代器。由于迭代器 API 是一种比任意随机访问 API 限制性更强的访问模式，因此这一更改为 Lucene 提供了更多的自由度和能力来使用积极的压缩和其他优化：

在稀疏数据的情况下减少磁盘空间使用
即使在非稀疏情况下，文档值的压缩率和解码速度也更好
删除缺失值的特殊列（getDocsWithField）并线程本地编解码器读取器

您可以在以下博客中了解此更改：

作为迭代器的文档值 http://blog.mikemccandless.com/2017/03/apache-lucene-70-is-coming-soon.html
使用 Apache Lucene 的稀疏与密集文档值 https://www.elastic.co/blog/sparse-versus-dense-document-values-with-apache-lucene

Practice

实际上，这种变化在某些情况下会导致性能下降，例如SOLR-9599 https://issues.apache.org/jira/browse/SOLR-9599。在主要情况下（分面和排序），迭代 API 在正确使用的情况下是可以的，甚至更重要的是，允许执行一些优化。事实上，在很多情况下这个 API 并不是一个好的解决方案。所有这些情况都被视为不正确的用法而被丢弃（与我们在 java word 中使用 sun.misc.Unsafe 遇到的问题相同）。

实际上，org.apache.lucene.index.DocValuesIterator#advanceExact速度相当快，并且在某些实现情况下具有相似的性能和复杂性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Solr

Lucene

Lucene 7+中如何通过文档ID获取DocValue？的相关文章

仅根据lucene中term出现次数较多的文档来计算分数

我开始研究基于 lucene net 引擎的简历检索文档组件它工作得很好它会获取文档并根据 VSM 背后的理念是查询词出现在 a 中的次数文档相对于数量该术语出现在所有集合中的文档越多该文件的相关内容是询问 Lucene
如何配置 Magento Enterprise 使用 Solr 作为主要搜索引擎？

我尝试寻找文档但它非常稀疏我编写了以下指南希望它可以帮助人们节省 2 3 个小时的安装设置和配置时间与 MySQL 全文搜索标准设置相比使用 Solr 带来的性能提升非常惊人在您的 Magento 安装中让它工作绝对值得花时间
SOLR 中的子字符串匹配

我似乎无法弄清楚如何使用 SOLR 查找子字符串匹配我已经根据前缀找出了匹配这样我就可以让火腿与汉堡包匹配我如何搜索汉堡来匹配汉堡包我试过burger但这引发了错误或不允许作为 WildcardQuery 中的第一个字符如
Lucene 上打开的文件太多错误

我正在进行的项目是对一定数量的数据长文本建立索引并将它们与每个时间间隔大约 15 到 30 分钟的单词列表进行比较一段时间后比如说第 35 轮在开始索引第 36 轮的新数据集时发生了此错误 ERROR 2011 06 01
Lucene：如何在单个字段下索引和搜索多个值

如何在单个字段下索引和搜索多个值例如说我有一个领域处理器这可能有i3 i5 i7 or i3 or i3 i5价值观现在想象一下笔记本电脑的数据如下 data1 name laptop name price laptop price p
solr 中的文本字段排序

我正在使用 solr 3 4 并希望 solr 搜索结果在文本字段上排序如何实现像 int 自然排序一样对文本字段进行排序有没有办法在查询时将文本字段转换为int 我的排序字段是字符串类型我希望它在排序时表现得像 int 字段我无法
LUCENE：搜索与正则表达式匹配的术语

我需要搜索 lucene 索引中的任何术语匹配特定的正则表达式我知道我可以使用TermsComponent在solr中如果配置如下
如何使用 pysolr 对 solr 进行原子更新？

我找不到关于如何使用 pysolr 更新 solr 的合适文档截至 2014 年 11 月原子更新 https github com toastdriven pysolr commit c49be48d459448532b5ad0f505
SolrNet：过滤查询时保留 Facet 计数

当我查询时我收到以下方面 Field1 Key Best Facet 1 Value 999 Key Best Facet 2 Value 999 Field2 Key Second Best Facet 1 Value 421 Key
复杂的 SOLR 查询，包括 NOT 和 OR

我对 SOLR 搜索有一些相当复杂的要求我需要针对标记内容的数据库执行这些搜索我需要首先过滤数据库以获取与我的过滤器标签匹配的结果任何具有黑名单中的标签的结果都应被删除除非它们也包含白名单中的标签假设我想检索所有标记为森林或
Lucene外来字符问题

我在使用 Zend Lucene 和等外来字符时遇到了一些严重的问题这些问题在创建索引和查询索引时都会出现我已经尝试过 iso 8859 1 和 utf 8 ISO 8859 1 不起作用的查询看起来像 area sk ne 使用 Z
使用 sunspot/solr 搜索多个模型

我已经能够成功地实现基本的全文搜索但是当我尝试使用范围 with statements 时任何涉及多对多关系模型的查询似乎都不适合我我知道相关行位于数据库中因为我的 sql 语句确实返回了数据然而太阳黑子查询不会返回任何结果我
如何使用 Solr 索引 pdf 内容？

我正在尝试使用 SolrJ 索引一些 pdf 文档如下所述http wiki apache org solr ContentStreamUpdateRequestExample http wiki apache org solr Cont
如何在 Lucene 5 中获取 Span Term 查询的匹配范围？

在 Lucene 中要获取术语周围的单词建议使用跨度查询有很好的演练http lucidworks com blog accessing words around a positional match in lucene http l
Solr 中缺少强制 uniquekey 字段错误

我的项目中有这个问题我使用 Apache Poi 读取 xlsx excel 文件并且想在 Solr 核心中对它们进行索引我使用 SolrInputDocument 来索引读取文件这是我的java代码 package org sol
Solrcloud Zookeper 设置：等待 4000ms 后未找到注册的领导者，集合：c1 切片：shard2

我使用 solr 4 10 3 我通过 java 中的嵌入式 jetty 服务器启动 solr 我正在尝试使用 2 个分片领导者配置 solrcloud 我有一个外部动物园管理员设置我在启动 solr 时指向动物园管理员实例如下所示
MultiFieldQueryParser 正在从首字母缩略词中删除点

我再次发布这个问题因为我的查询没有得到答复我正在使用 Lucene 开发图书搜索 api 用户可以搜索标题或描述字段包含 C F A 的书籍我正在使用 StandardAnalyzer 以及停用词列表我使用 MultiFieldQu
如何将 Solarium 配置为使用 POST 而不是 GET 请求

我面临的问题是我们发送到 solr jetty 的 uri 变得很长超过 9k 字节超出了 jetty 的默认限制解决方案是从 GET 请求切换到 POST 请求因为我们不想增加 jetty 可以接受的 requestHeaderS
由于未定义符号，PECL solr 未加载：curl_easy_getinfo

我正在尝试加载 PECL solr 扩展我尝试使用 pecl install solr 并下载并使用 phpize configure make 来安装它在这两种情况下扩展安装时都没有错误但在 apache 重新启动后或在命令行上
如何禁用 solr 管理页面

对于生产来说拥有一个甚至不要求登录凭据的 solr 管理员感觉不安全如何禁用默认的 solr 管理页面我只是希望我的 web 应用程序使用 Solr 进行搜索词索引我强烈建议保留管理页面用于调试目的它在很多情况下拯救了我有多种方

随机推荐

将多维 NumPy 数组的图像旋转 90 度

我有一个形状为 7 4 100 100 的 numpy 数组这意味着我有 7 个 100x100 深度为 4 的图像我想将这些图像旋转 90 度我努力了 rotated numpy rot90 array 1 但它将数组的形状更改为
如何将 JTable 中第一行的颜色设置为任何颜色并保留表中之前设置的颜色

我已经阅读了很多有关 Java 中的 CellRendering 的内容并且还访问了这个优秀网站的其他问答不幸的是我仍然没有找到以下问题的解决方案我想渲染一个显示 StatusEvents 的 JTable 这对于监视正在运行的系统是
使用 load_model 时，keras 内核初始化程序被错误调用

Keras 版本 2 2 4 张量流版本1 13 1 我正在使用 Colab 笔记本我正在尝试制作自定义初始值设定项并使用 model save 保存模型但是当我再次加载模型时出现以下错误类型错误 myInit 缺少 1 个必需的位
是否可以在运行时更改 Qt 上的语言

在我的应用程序中我需要国际化假设我为不同语言创建了多个 ts 文件例如德语法语等以及翻译的短语现在假设用户想要在运行时更改语言使用Qt方法是不可能的吗 Qt 5 10 中引入的函数 QQmlEngine retransla
Rust 泛型中的常量值[重复]

这个问题在这里已经有答案了 Rust 语言是否支持类似于 C 方式的通用代码中的常量值看来语言overview http static rust lang org doc tutorial html generics不做广告在 C 中使
非管理员的图形 API 权限

我想向非管理员用户 Bob 授予一些 Graph API 权限以便它能够读取一些数据without需要管理员同意 If I give the admin consent here every permission is given to
传递到字典中的模型项的类型为“System.Collections.Generic.List”

我是 ASP NET 新手这是我的第一个应用程序我正在开发一个管理保险请求的应用程序模型请求包含文件上传 addDemand 添加请求需要成员遵守者登录每次我尝试运行 addDemande 时都会收到错误传递到字典中的模型项
Angular 测试中 fakeAsync 和 async 有什么区别？

我知道tick 函数利用fakeAsync 我也可以使用fixture whenStable then with async and fakeAsync 以及我想知道它们的确切用例任何人都可以用例子解释这一点注意我想在这两种情况下使
Chart JS：忽略 x 值并将点数据放在第一个可用标签上

我正在 Chart js 中制作折线图并且遇到一个问题我试图在线上绘制点数据但它忽略了我给出的 x 值而是将它们放在第一个可用标签上 this myLineChart new Chart this ctx type line dat
如何从菜单切换到新的活动？

我有一个菜单想在用户单击菜单项时打开一个新的活动 Override public boolean onOptionsItemSelected MenuItem item Handle item selection switch item
使用InnoIDE写入AppData目录？

我需要写信给 C Users 用户 AppData Roaming AppName 安装过程中的文件夹我使用 InnoIDE 程序进行设置非常棒然而它似乎缺少一个 AppData 特殊文件夹来轻松访问该目录例如您可以使用 Des
如何制作本地离线数据库

我正在使用 HTML CSS 和 JavaScript 制作一个待办事项列表应用程序我认为存储数据的最佳方式是本地数据库我知道如何使用localStorage and sessionStorage 而且我也知道如何使用在线MySQL h
使用 Google Compute Engine 默认服务帐户签署 Google Cloud Storage URL

我正在尝试使用 GCE 默认服务帐户签署 GCS URL 我为计算默认服务帐户提供了必要的服务帐户令牌创建者角色当我尝试在以下 Python 代码中签署 url 时出现错误 import google auth import goo
正则表达式匹配除 0 和 1 之外的任何数字，最多由四位数字组成

我尝试了以下方法来匹配除 0 和 1 之外的任何数字例如 2 到 9999 但它似乎没有按预期工作 d 0 9 0 9 0 1 Exclude 0 and 1从字符类中regex 2 9 1 d 0 3 这将匹配所有的数字不开始于 0 a
Rails pages_controller_spec.rb 测试不应该失败，但是错误？

一直在关注 Michael Hart 的 Rails 教程 Mac OS X 10 7 上的 Rails 版本 3 0 rspec 规范 FF Failures 1 PagesController GET help should be su
如何使用 Angular-Cli 在 /src/app 之外的文件夹中创建组件

我希望能够在 src app 外部的文件夹中创建组件模块或服务所以我尝试过 ng g c mco lib 但失败了我希望能够使用 CLI 在 app 外部的文件夹中创建一个组件我怎样才能做到这一点 EDIT 您可以更改 Angula
如何在行（行）而不是列中组织多对多复选框？

我正在创建一个模块其中我有一个Many2many字段我想将其转换为复选框组我已经在我的 XML 视图中编写了这个来实现它
动态重命名 Azure Blob（如果已上传）

我有一组文件未本地保存需要上传到 azure blob 存储并每天更新 1 有一定数量的同名内容不同的文件应保存为单独的 blob 2 更新的文件集应覆盖相应的前一天 blob 有没有办法检查 blob 是否已经存在并通过附加数字动
链接不支持异常处理的代码 (C++/LLVM)

我正在尝试使用 llvm 作为我的软件的代码生成后端并且刚刚意识到 llvm 的编译不支持 C 异常处理为了提高效率然而在我的软件中我广泛使用异常处理如果我将所有回调函数包装在 try catch blocks 中这样就不需要
Lucene 7+中如何通过文档ID获取DocValue？

我正在将 DocValue 添加到文档中 doc add new BinaryDocValuesField foo new BytesRef bar 检索具有 ID 的特定文档的值docId I call DocValues getBina

热门标签