lucene 总体架构

2023-11-04

本文转载至:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623596.html

Lucene概述:

  • 一个高效的,可扩展的,全文检索库。
  • 全部用Java实现,无须配置。
  • 仅支持纯文本文件的索引(Indexing)和搜索(Search)。
  • 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。

在Lucene in action中,Lucene 的构架和过程如下图,


说明Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点。

让我们更细一些看Lucene的各组件:


lucene  zong ti jia gou

  • 被索引的文档用Document对象表示。
  • IndexWriter通过函数addDocument将文档添加到索引中,实现创建索引的过程。
  • Lucene的索引是应用反向索引。
  • 当用户有请求时,Query代表用户的查询语句。
  • IndexSearcher通过函数search搜索Lucene Index。
  • IndexSearcher计算term weight和score并且将结果返回给用户。
  • 返回给用户的文档集合用TopDocsCollector表示。

 

那么如何应用这些组件呢?

让我们再详细到对Lucene API 的调用实现索引和搜索过程。


  • 索引过程如下:
    • 创建一个IndexWriter用来写索引文件,它有几个参数,INDEX_DIR就是索引文件所存放的位置,Analyzer便是用来对文档进行词法分析和语言处理的。
    • 创建一个Document代表我们要索引的文档。
    • 将不同的Field加入到文档中。我们知道,一篇文档有多种信息,如题目,作者,修改时间,内容等。不同类型的信息用不同的Field来表示,在本例子中,一共有两类信息进行了索引,一个是文件路径,一个是文件内容。其中FileReader的SRC_FILE就表示要索引的源文件。
    • IndexWriter调用函数addDocument将索引写到索引文件夹中。
  • 搜索过程如下:
    • IndexReader将磁盘上的索引信息读入到内存,INDEX_DIR就是索引文件存放的位置。
    • 创建IndexSearcher准备进行搜索。
    • 创建Analyer用来对查询语句进行词法分析和语言处理。
    • 创建QueryParser用来对查询语句进行语法分析。
    • QueryParser调用parser进行语法分析,形成查询语法树,放到Query中。
    • IndexSearcher调用search对查询语法树Query进行搜索,得到结果TopScoreDocCollector。

以上便是Lucene API函数的简单调用。

然而当进入Lucene的源代码后,发现Lucene有很多包,关系错综复杂。

然而通过下图,我们不难发现,Lucene的各源码模块,都是对普通索引和搜索过程的一种实现。

此图是、全文检索的流程对应的Lucene实现的包结构。





本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

lucene 总体架构 的相关文章

  • 多图预警!Ubuntu18.04全套安装流程

    1 Ubuntu系统下载 Ubuntu18 04LTS下载地址 点击跳转 对于软件开发人员 建议下载Ubuntu18 04LTS 支持相对较多较稳定 2 下载软碟通软件 UltraISO UltralISO下载链接 点击跳转 3 安装使用
  • 三目运算符判断多个条件的使用方法

    写项目的时候数据状态有三种 给三种不同的样式 然后发现可以简单地使用三目运算符 就可以实现多个条件的判断 span scope row status span 也就是这个用法 key 1 第一种 key 2 第二种 key 3 第三种 第四
  • 总结一下query中ajax的几种方法

    1 ajax ajax type POST 提交数据的类型 POST GET url testLogin aspx 提交的网址 提交的数据 data Name sanmao Password sanmaoword 返回数据的格式 datat
  • opencv-python帧差法

    代码如下 import cv2 import numpy as np cap cv2 VideoCapture E chinese ocr master xinwen 3 avi Check if camera opened success
  • 第11课 微信小程序多种弹窗提示样式

    第11课 微信小程序弹窗提示样式 消息提示 wx showToast Object object 关闭消息提示 wx hideToast Object object 弹窗选框提示 wx showModal Object object 加载提
  • 2017阿里笔试 用模板库中的vector解决笔试中的兔子繁殖问题

    问题介绍 1 猎人把一对兔子婴儿 一公一母称为一对 放到一个荒岛上 两年之后 它们生下一对小兔 之后开始每年都 会生下一对小兔 生下的小兔又会以同样的方式继续繁殖 2 兔子的寿命都是x x gt 3 年 并且生命的最后一年不繁殖 3 如果岛
  • R语言学习笔记:从零开始?数据结构和基础知识

    R语言是一种数学编程语言 主要用于统计分析 绘图 数据挖掘 其在生物信息大数据分析处理过程中扮演着重要角色 笔者从今天开始分享R语言学习笔记 环境安装 Windows 官方地址 https cloud r project org bin w

随机推荐

  • Linux下socket多路复用应用--select函数

    Linux下socket多路复用应用 select函数 Select系统调用是用来让我们的程序监视多个文件描述符 file descriptor 的状态变化的 程序会停在select这里等待 直到被监视的文件描述符有某一个或多个发生了状态改
  • Qt打包发布程序,打包安装程序和打包为单个exe可执行程序,图文教程

    Qt打包发布程序 打包安装程序和打包为单个exe可执行程序 图文教程 1 前言 当我们用Qt制作好软件后 要将程序拷贝到别人的电脑上使用 如果直接拷贝exe是无法运行的 本教程将介绍如何将制作好的Qt软件打包发布 2 将Qt程序生成rele
  • 二、Cesium加载影像,地形、设置视角

    一 影像 1 启动api服务 在下载的Cesium解压根目录下的 Build Documentation下执行 hs p 8082 然后访问http 192 168 1 155 8082 index 2 搜索viewer 可以看到创建vie
  • MySQL常见面试题(四)

    前言 在进行数据库设计和优化的过程中 我们不得不面对多样化的技术和方法来确保我们的系统可以高效 可靠地运行 为了深入了解和掌握这个领域 我们将讨论InnoDB存储引擎的多种索引类型 以及索引的不同方面和分类 我们还将深入探讨为什么通常推荐使
  • java断点_Java 断点调试总结

    为了准备调试 你需要在代码中设置一个断点先 以便让调试器暂停执行允许你调试 否则 程序会从头执行到尾 你就没有机会调试了 1 条件断点 断点大家都比较熟悉 在Eclipse Java 编辑区的行头双击就会得到一个断点 代码会运行到此处时停止
  • JavaScript学习(三)javaScript基础语法

    文章目录 基础知识 变量 if语句 函数定义 输出内容 alert消息对话框 confirm 消息对话框 prompt消息对话框 打开新窗口 关闭窗口 练习 基础知识 变量 申明 var 变量名 var 用来定义变量 这个用法在很多语言里都
  • gorm - database操作利器

    前言 ORM 即 Object Relational Mapping 全称 对象关系映射 程序中当需要对数据库进行操作时 势必需要通过连接数据库 调用sql语句 执行sql语句等操作 ORM将数据库中的表 字段 行于我们面向对象编程的类及其
  • C++——静态数据成员

    静态成员分为静态数据成员和静态成员函数 一 静态数据成员的概念 静态数据成员不是某个对象的的成员 而是同一个类所以对象共享的成员 其值对每个对象都是一样的 静态数据成员具有全局性 是类域中的全局变量 不具体属于哪一个对象 在运行之前 编译阶
  • QPainter::begin: Paint device returned engine == 0, type: 1

    QPainter begin Paint device returned engine 0 type 1 QPainter默认只能在paintEvent里面调用 但是 在其他事件中绘制窗体 提示信息如下 QPainter begin Pai
  • BCD码-8421码、5421码、2421码、余3码

    一 BCD码的转换原理 BCD码 使用 4 位二进制来表示 1 位十进制 即使用 4 个位来存储一个十进制的值 使二进制和十进制之间的转换以快捷的进行 比如 使用4位二进制 0000 表示 十进制 0 使用4位二进制 0001 表示 十进制
  • 如何实现html上传文件并被Django后台处理

    如何实现html上传文件并被Django后台处理 1 html前端代码编写 先看代码 代码如下
  • CString类常用方法----Left(),Mid(),Right()……

    CStringLeft intnCount const 从左边1开始获取前 nCount个字符 CStringMid intnFirst const 从左边第 nCount 1个字符开始 获取后面所有的字符 CStringMid intnF
  • 二进制方式部署k8s集群1.21版本-域名形式

    二进制方式部署k8s 1 21版本 域名形式 说明 系统参数 主机名称 IP地址 部署节点 部署组件 m1 192 168 11 187 k8s1 masterk8s2 master k8s1 etcd apiserver controll
  • 爬虫(五):python中的POST的四种请求方式(编码格式)

    POST请求主要包含json格式 xml格式 文件上传 form data 及默认传递的urlencoded HTTP的报文结构 1 请求行 请求方法 请求URL HTTP协议版本三个部分 2 请求头 从第二行开始到倒数第二行都是我们的请求
  • Clang之语法抽象树AST

    语法分析器的任务是确定某个单词流是否能够与源语言的语法适配 即设定一个称之为上下文无关语言 context free language 的语言集合 语法分析器建立一颗与 词法分析出的 输入单词流对应的正确语法树 语法分析树的建立过程主要有两
  • Nacos与Eureka的异同

    1 架构设计 Eureka采用CS架构 由服务注册中心Eureka Server和服务提供者 消费者Eureka Client组成 Nacos采用高可用的P2P设计 无主节点 所有的server节点都是同等作用 支持AP和CP两种模式 2
  • Android 自动获取经纬度,计算距离、经纬度、方位角

    最近做一个项目需要通过GPS获取经纬度 通过计算算出两点之间的距离 通过对Google和百度的疯狂轰炸 终于找到了解决的办法 首先声明权限 android name android permission ACCESS FINE LOCATI
  • Scrcpy视频同步源码分析

    什么是Scrcpy https github com Genymobile scrcpy Scrcpy是genymobile开源的一款手机镜像软件 通过对手机音视频的采集和同步 可以实现在PC平台上控制手机的功能 官方解释 此应用程序镜像通
  • PHP Drupal个人博客

    PHP Drupal个人博客 官网 Prerequisite PHP Composer 快速安装 composer create project drupal recommended project drupal cd drupal php
  • lucene 总体架构

    本文转载至 http www cnblogs com forfuture1978 archive 2009 12 14 1623596 html Lucene概述 一个高效的 可扩展的 全文检索库 全部用Java实现 无须配置 仅支持纯文本