lucene如何索引文档？

2024-01-01

我读了一些关于Lucene的文档；我还阅读了此链接中的文档 (http://lucene.sourceforge.net/talks/pisa http://lucene.sourceforge.net/talks/pisa).

我不太明白Lucene是如何索引文档的，也不明白Lucene使用哪些算法来索引？

在上面的链接中，它说 Lucene 使用此算法进行索引：

incremental algorithm:

维护一个段索引堆栈

为每个传入文档创建索引

将新索引压入堆栈

设 b=10 为合并因子；中号=8

for (size = 1; size < M; size *= b) {
    if (there are b indexes with size docs on top of the stack) {
        pop them off the stack;
        merge them into a single index;
        push the merged index onto the stack;
    } else {
        break;
    }
}

该算法如何提供优化的索引？

Lucene使用B树算法还是任何其他类似的算法来建立索引 - 或者它有特定的算法吗？

简而言之，Lucene 使用以下方式构建倒排索引：跳过列表 https://lucene.apache.org/core/6_6_0/core/org/apache/lucene/codecs/MultiLevelSkipListWriter.html on disk，然后加载索引项的映射进入记忆用一个有限状态换能器 https://lucene.apache.org/core/6_6_0/core/org/apache/lucene/util/fst/Builder.html（FST）。但请注意，Lucene不（必须）将所有索引项加载到 RAM http://blog.mikemccandless.com/2010/07/lucenes-ram-usage-for-searching.html正如 Lucene 索引系统的作者 Michael McCandless 本人所描述的那样。请注意，通过使用 Skip-Lists，索引可以从一个命中遍历到另一个命中，从而使得诸如set并且，特别是，范围查询可能（很像 B 树）。还有关于索引跳跃列表的维基百科条目 https://en.wikipedia.org/wiki/Skip_list#Indexable_skiplist还解释了为什么 Lucene 的 Skip-List 实现被称为多层次跳过列表 - 本质上，使O(log n)可以进行查找（同样，很像 B 树）。

因此，一旦倒排（术语）索引 - 基于跳表数据结构 https://en.wikipedia.org/wiki/Skip_list- 从文档构建，索引存储在磁盘上。 Lucene 然后将这些术语加载（如前所述：可能只是其中一些）到有限状态换能器 https://en.wikipedia.org/wiki/Finite-state_transducer，在 FST 实现中松散的灵感 https://lucene.apache.org/core/6_6_0/core/org/apache/lucene/util/fst/FST.html by 形态学 https://github.com/morfologik/morfologik-stemming.

迈克尔·麦坎德利斯（Michael McCandless）（也）在以下方面做得非常好和简洁解释 Lucene 如何以及为何使用（最小非循环）FST http://blog.mikemccandless.com/2010/12/using-finite-state-transducers-in.html为 Lucene 存储在内存中的术语建立索引，本质上是作为SortedMap<ByteSequence,SomeOutput>，并给出了 FST 如何工作的基本概念（即 FST 如何压缩字节序列 [即索引项] 以使该映射的内存使用量呈亚线性增长）。他指出描述特定 FST 算法的论文 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.24.3698Lucene 也使用。

对于那些好奇为什么 Lucene 使用 Skip-Lists 而大多数数据库使用 (B+)- 和/或 (B)-Trees 的人，请看一下the right所以答案 https://stackoverflow.com/a/28270537/1847419关于这个问题（Skip-Lists vs. B-Trees）。这个答案给出了一个非常好的、深入的解释——本质上，not这么多使得索引的并发更新“更容易接受”（因为您可以决定不立即重新平衡 B 树，从而获得与 Skip-List 相同的并发性能），而是，跳过列表使您无需处理（延迟或不延迟）平衡操作（最终）B 树需要（事实上，正如答案所示/参考，如果其中任何一个“做得正确”，B 树和[多级]跳过列表之间的性能差异可能很小。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

lucene如何索引文档？的相关文章

依赖解析算法

我正在编写一个包管理器为此我希望依赖项解析尽可能强大每个包都有一个版本列表每个版本包含以下信息具有可比性的 ID 依赖关系软件包列表以及每个软件包的一组可接受的版本冲突软件包列表以及每个软件包的一组与该版本一起导致问题的版本
在elasticsearch中转义特殊字符

我正在使用Elasticsearch python 客户端 https elasticsearch py readthedocs io en master 对我们托管的 elasticsearch 实例进行一些查询我注意到一些字符需要转义
找到一个数是素数，为什么检查到n/2更好。避免n后半部分的数字的原因是什么

要检查一个数是否是素数最简单的方法是尝试将这个数除以 2 到 n 如果任何操作得到余数为 0 那么我们就说给定的数不是素数但最好只进行划分和检查直到 n 2 我知道更好的方法是直到 sqrt n 我想知道跳过后半部分的原因假设我们是否
欧拉项目 45

我还不是一名熟练的程序员但我认为这是一个有趣的问题我想我应该尝试一下三角形五边形六边形数字由以下生成公式三角形 T n n n 1 2 1 3 6 10 15 五边形 P n n 3n 1 2 1 5 12 22 35 六角
使用 A 星查找路径的启发式函数

I am trying to find a optimal solution for the following problem 每个节点内表示的数字表示为 x y 一个节点的相邻节点总是有一个y值为当前节点 y 值 1 更改的成本为 1
优先连接，Matlab 中的复杂网络

大家好我现在正在 MATLAB 中研究优先附件模型在理解以下内容时遇到一些困难假设我一开始有 4 个节点连接如下 time 0 1 lt gt 2 3 lt gt 4 在下一个时间步骤中我添加一个节点和 4 个连接然后添加另一个
如何衡量字符串的复杂度？

我有一些长字符串 1 000 000 个字符每个字符串仅包含定义字母表中的符号例如 A 1 2 3 示例字符串 string S1 1111111111 meta complexity 0 string S2 1111222333 me
如何为“%abc%”搜索创建文本索引？

我想对查询进行索引x like abc 如果我有一个如下表 create table t data varchar 100 我想创建一个索引以便能够有效地执行以下操作 select from t where contains abc 和这个
Lucene 标准分析器与 Snowball

刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行运行了一些测试查询并注意到如果原始术语是单数则复数查询不会返回结果我知道雪球分析器增加了词干支持这听起来不错不过我想知道超过标准的雪球锣是否有任何
通过排列四个给定数字找到最大可能时间 HH:MM

我最近为了工作晋升而参加了编码测试这是我真正遇到的任务之一我想知道什么是最好的方法来做到这一点我使用了大量的 if 和 if else 这不是最干净的解决方案但完成了工作我被问到的问题是将 4 个数字格式化为 24 小时时间 0
融合元组以查找等价类

假设我们有一个包含 k 个元素的有限域 D d1 dk 我们认为 S 是 D n 的子集即一组形式的元组其中 ai 在 D 中我们希望使用 S 2 D n 的子集即一组形式的元组其中 Ai 是 D 的子集来紧凑地表示它
如何提高洪水填充例程的性能？

我正在我的应用程序中实现四路洪水填充伪代码如下 Flood fill node target color replacement color 1 If the color of node is not equal to target co
如何在 Postgresql 中将 GIST 或 GIN 索引与 hstore 列一起使用？

我正在使用 postgresql 9 3 的 hstore 我正在尝试对 hstore 列使用索引就像文档所述 http www postgresql org docs 9 3 static hstore html 我的问题是索引似乎没有被
寻找簇的中心

我有以下问题进行抽象以找出关键问题我有 10 个点每个点与其他点有一定距离我想要能够找到簇的中心即与其他点的成对距离最小的点令 p j p k 表示点 j 和 k 之间的成对距离p i 是簇的中心点 iff p i s t m
数字求和的算法？

我正在寻找一种数字求和的算法让我概述一下基本原则假设你有一个号码 18268 1 8 2 6 8 25 2 5 7 7 是我们的最终数字它基本上是将整个数字中的每个数字相加直到我们得到一个也称为核心数字它经常被命理学家使用
生成 2D 中的非简并点集 - C++

我想在 2D 平面中创建一大组非退化的随机点云整个集合中没有 3 个点在一条直线上我有一个简单的解决方案它生成一个随机浮点对 P new x y 并检查到目前为止生成的每对点 P1 P2 是否位于同一行这需要 O n 2 检查添加到
从对列表创建邻接列表类型结构

在 C 中我有 class Pair int val1 int val2 我有一个来自以下来源的配对列表 List
查找重叠事件/时间的算法

在处理自定义日历时我不知道如何找到与任何其他时间段重叠的时间段时段从 0 点至 720 点上午 9 点至晚上 9 点每个像素代表一分钟 var events id 1 start 0 end 40 an event from 9 0
2 同一个表的同一列上的 PostgreSQL 索引 - 冗余吗？

我有一个带有 2 个索引的 PostgreSQL 表其中一项指数涵盖website id and tweet idcolumns 是唯一的 B 树索引第二个索引仅涵盖website id列并且是非唯一索引如果第一个索引存在第二个索
对列表中的相邻元素进行分组

假设我想编写一个函数来执行此操作输入 1 1 3 3 4 2 2 5 6 6 输出 1 1 3 3 4 2 2 5 6 6 它将相同的相邻元素分组这个方法的名称应该是什么此操作有标准名称吗 In 1 1 3 3 4 2 2 5 6 6

随机推荐

在java中的给定索引处有效地添加ArrayList中的元素

我需要在 ArrayList 的索引 i 处插入一个 Person 类型的元素我自己定义的类我知道我可以使用add int index E element http docs oracle com javase 7 docs api j
查找字符串并删除行 - Node.JS

如何在node js中读取文件搜索字符串和删除行我努力了 var fs require fs fs readFile shuffle txt function read err data if err throw err lastInd
Selenium - 为什么最小化浏览器会给出找不到元素的错误，而最大浏览器不会

我正在使用 Selenium 2 0 据我所知 Selenium 并不真正关心浏览器的大小但是当我单击下拉菜单时它似乎无法找到不在浏览器视图中的所有元素而当其最大化时它可以找到我个人认为它会爬行网络脚本但我的观察证明我错了评
触摸事件不触发 C# WPF

我创建了一个订阅 WPF 触摸事件的程序在过去的几个月里一切都按预期工作但昨天没有任何触摸事件会触发我尝试创建一个新的简单程序来测试触摸事件但它的工作原理是相同的所有触摸输入都作为鼠标事件发送即使光标从鼠标箭头变为触摸十字准线
Phonegap - 一旦我使用 window.location.replace 离开索引范围，处理推送通知

我在用着Phonegap http phonegap com 4 2 基于Cordova 5 0 创建跨平台应用程序该应用程序适用于 Android 和 iOS 当用户加载应用程序时他位于index html 从那里我可以访问各种 Ja
GNU 工具链如何决定使用近跳转指令与短跳转指令？

我有一些代码gcc 4 8 5 如果重要的话在两台不同的机器上编译成几乎相同的二进制文件除了一个地方其中一台机器上的工具链中的某些东西决定使用近 JE指令而另一台机器上的工具链决定使用简短 JE 指令 41e274 85 ed
Haskell 元组构造函数 (GHC) 以及语言与其实现之间的分离

当我意识到这一点时哈斯克尔再次让我大吃一惊 x y 只是语法糖 x y 当然我想将其扩展到更大的元组但 x y z Gave me x y z 这不是我想要的一时兴起我尝试了 x y z 它起作用了给出了我想要的 x y z 这
如何导入从html导入.json的.js

我不是说英语的公民我英语不好但我做得最好我正在尝试导入一个从 html 导入 json 的 js 文件 js import JSON from json menu json function function parseMenu ul
我如何在同时具有“script”和“doc”的 ES 上发出单个更新请求..？

我的文档请求 POST test v2 update Z nM 2wBjkGOA r6ArOb doc CD middle prakash first raj doc as upsert true 我的脚本请求 POST test
将编码字符添加到 url 会破坏 htaccess

这是我的代码 RewriteEngine on RewriteRule page index php url 1 NC 当我访问时page http google com http google com 我相信你需要B escape htt
mv 包裹在 shell 脚本中的 if 内

你怎么做到这一点我的想法是这样的另外我需要使用 fi 并完成吗或仅其中之一 if mv 1 txt gt 2 txt 0 then echo Success else echo Failure fi done 在 BASH 中只有这
多重返回：哪一个设置最终的返回值？

鉴于此代码 String test try return 1 finally return 2 语言规范是否定义了调用的返回值test 换句话说在每个 JVM 中它总是相同的吗在 Sun JVM 中返回值是2 但我想确定这不依赖于虚
Dask 连接的简单方法（水平，轴=1，列）

Action将两个 csv data csv 和 label csv 读取到单个数据帧 df dd read csv data files delimiter header None names x y z intensity r g b
基于另一张工作表中的公式的条件格式

我有 2 张 Excel 2007 PT PT 表其中一个 sheet1 有多个要验证的列另一个 base valid 有 5 列需要验证我正在尝试使用宏验证 regioes M2 列 Sub Validar Regioes Dim
数据分割时使用 scikit-learn 标准化 PCA

我有一个后续问题如何使用 PCA 和 scikit learn 进行标准化 https stackoverflow com questions 25475465 how to normalize with pca and scikit l
jest 无法识别 URL 构造函数抛出的 TypeError

Jest toThrow TypeError 与抛出的 TypeError 不匹配new URL构造函数这是一个错误还是我做错了什么笑话版本是29 4 2 测试用例 it throws TypeError when url is inv
JavaFX ContextMenu 如何获取单击的对象？

我正在学习 javafx scene control ContextMenu 现在我面临一个问题如何从 EventHandler 获取单击的对象 event source 和 event target 都返回 MenuItem 让我用一个
使用 Valgrind 运行时 mmap 返回 EINVAL

我针对 Valgrind 运行的 mips32 应用程序在 mmap 函数中失败如果我单独运行它工作正常但是当我针对 valgrind 运行它时它每次都会失败并显示 EINVAL void mem uint32 t mmap NULL
Write系统调用直接将数据写入磁盘？

我读过几个问题 here https stackoverflow com questions 1450551 buffered i o vs unbuffered io 与此相关但我仍然有些困惑我的理解是 write 系统调用将数据放入
lucene如何索引文档？

我读了一些关于Lucene的文档我还阅读了此链接中的文档 http lucene sourceforge net talks pisa http lucene sourceforge net talks pisa 我不太明白Lucene是

lucene如何索引文档？

lucene如何索引文档？ 的相关文章

随机推荐

热门标签

lucene如何索引文档？的相关文章