Lucene 中跨多个字段的重复值的影响

2024-04-10

在 lucene 索引中的多个字段中重新索引相同的值会产生什么影响？

这个想法是，某人的名字是他们的名字和一般详细信息的一部分。所以我想将该值索引到多个字段中。 Ted Bloggs 我可能会索引如下：

Field        |    Value
-------------|---------
firstName    | Ted
lastName     | Blogs
name         | Ted
name         | Bloggs
general      | Ted
general      | Bloggs
all          | Ted
all          | Bloggs

通过这样做，我可以轻松地形成字段类别，但我担心它可能会对性能和/或磁盘使用产生不利影响。

有人可以建议吗

@aishwarya 是对的，但要进一步扩展它：

From the docs http://lucene.apache.org/java/3_0_0/fileformats.html:

该文件按术语排序。术语首先按术语的字段名称按字典顺序（按 UTF16 字符代码）排序，然后在术语内部按术语文本按字典顺序（按 UTF16 字符代码）排序。

每个字段将存储该术语一次，因此如果您重复每个术语五次，您的存储空间将增加五倍。然而，术语 dic 的大小相对于原始数据的大小是对数的，所以我怀疑你会遇到问题。

性能损失将不存在（Lucene 缓存每个字段开始的位置），除非拥有更多数据会迫使内存溢出。对于大多数搜索基础设施，您的索引可能小于几 GB，无论如何都可以轻松放入内存。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Indexing

lucenenet

Lucene

Lucene 中跨多个字段的重复值的影响的相关文章

从 java sdk 向对等方发送提案时出现访问被拒绝错误

我正在尝试使用以下代码查询区块链并收到访问被拒绝错误我也遇到同样的错误sendTransactionProposal方法也是如此 UserContext adminUserContext RegisterEnrollUser regist
存根方法时出现 InvalidUseOfMatchersException

我有这个 TestNG 测试方法代码 InjectMocks private FilmeService filmeService new FilmeServiceImpl Mock private FilmeDAO filmeDao Bef
Spring Security 自定义过滤器

我想自定义 Spring security 3 0 5 并将登录 URL 更改为 login 而不是 j spring security check 我需要做的是允许登录目录并保护 admin report html 页面首先我使用教
JVisualVM/JConsole 中的 System.gc() 与 GC 按钮

我目前正在测试处理 XML 模式的概念验证原型并围绕一个非常消耗内存的树自动机外部库我已经获得了源代码构建我想绘制真实峰值堆随着模式大小的增加不同运行的内存消耗使用的指标符合我的目的并且不会影响问题或者至少是它的合理近似
Java：在 eclipse 中导出到 .jar 文件

我正在尝试将 Eclipse 中的程序导出到 jar 文件在我的项目中我添加了一些图片和 PDF s 当我导出到 jar 文件时似乎只有main已编译并导出我的意愿是如果可能的话将所有内容导出到 jar 文件因为这样我想将其转换为
如何将 Mat (opencv) 转换为 INDArray (DL4J)？

我希望任何人都可以帮助我解决这个任务我正在处理一些图像分类并尝试将 OpenCv 3 2 0 和 DL4J 结合起来我知道DL4J也包含Opencv 但我认为它没什么用谁能帮我如何转换成 INDArray 我尝试阅读一些问题here
Kotlin 未解决的参考：CLI 上 gradle 的 println

放一个printlnkotlin 函数返回之前的语句会崩溃堆栈跟踪 thufir dur NetBeansProjects kotlin thufir dur NetBeansProjects kotlin gradle clean bu
ConcurrentHashMap 内部是如何工作的？

我正在阅读有关 Java 并发性的 Oracle 官方文档我想知道Collection由返回 public static
是否可以通过编程方式查找 logback 日志文件？

自动附加日志文件以支持电子邮件会很有用我可以以编程方式设置路径如以编程方式设置 Logback Appender 路径 https stackoverflow com questions 3803184 setting logback
套接字的读写如何同步？

我们创建一个套接字在套接字的一侧有一个服务器在另一侧有一个客户端服务器和客户端都可以向套接字写入和读取这是我的理解我不明白以下事情如果服务器从套接字读取数据它在套接字中是否只看到客户端写入套接字的内容我的意思是如果服务
在另一个模块中使用自定义 gradle 插件模块

我正在开发一个自定义插件我希望能够在稍后阶段将其部署到存储库因此我为其创建了一个独立的模块在对其进行任何正式的 TDD 之前我想手动进行某些探索性测试因此我创建了一个使用给定插件的演示模块到目前为止我发现执行此操作的唯一方法
在 SWT/JFace RCP 应用程序中填充巨大的表

您将如何在 SWT 表中显示大量行巨大是指超过 20K 行 20 列的东西不要问我为什么需要展示那么多数据这不是重点关键是如何让它尽可能快地工作这样最终用户就不会厌倦等待每行显示某个对象的实例列是其属性一些我想使用 JFa
返回 Java 8 中的通用函数接口

我想写一种函数工厂它应该是一个函数以不同的策略作为参数调用一次它应该返回一个函数该函数根据参数选择其中一种策略该参数将由谓词实现嗯最好看看condition3为了更好的理解问题是它没有编译我认为因为编译器无法弄清楚函数式
使用布尔值进行冒泡排序以确定数组是否已排序

我有以下用于冒泡排序的代码但它根本不排序如果我删除布尔值那么它工作正常我知道由于我的 a 0 小于所有其他元素因此没有执行交换任何人都可以帮助我解决这个问题 package com sample public class Bub
Android：无法发送http post

我一直在绞尽脑汁试图弄清楚如何在 Android 中发送 post 方法这就是我的代码的样子 public class HomeActivity extends Activity implements OnClickListener pr
使用按钮作为列表的渲染器

我想使用一个更复杂的渲染器其中包含列表的多个组件更准确地说类似于this https stackoverflow com questions 10840498 java swing 1 6 textinput like firefox
如何重新启动死线程？ [复制]

这个问题在这里已经有答案了有哪些不同的可能性可以带来死线程回到可运行状态如果您查看线程生命周期图像就会发现一旦线程终止您就无法返回到新位置 So 没有办法将死线程恢复到可运行状态相反您应该创建一个新的 Thread 实例
泛型、数组和 ClassCastException

我想这里一定发生了一些我不知道的微妙事情考虑以下 public class Foo
在java中使用多个bufferedImage

我正在 java 小程序中制作游戏并且正在尝试优化我的代码以减少闪烁我已经实现了双缓冲因此我尝试使用另一个 BufferedImage 来存储不改变的游戏背景元素的图片这是我的代码的相关部分 public class QuizApp
Spring表单ModelAttribute字段验证避免400 Bad Request错误

我有一个ArticleFormModel包含正常发送的数据html form由 Spring 使用注入 ModelAttribute注释即 RequestMapping value edit method RequestMethod PO

随机推荐

Swift REPL：如何保存/加载 REPL 状态？（又名挂起/恢复、快照、克隆）

在 Swift REPL 中保存 REPL 状态的方法是什么例如我想在 REPL 中做一堆工作然后保存它以便稍后加载这个概念可能被命名为保存加载挂起恢复快照克隆序列化反序列化等任何让我实现这一目标的解决方案都会有
python中的单词排序

在Python中是否可以不根据英语字母表而是根据自己创建的字母表对单词列表进行排序您通常可以定义自定义比较方法以便在您的限制范围内执行排序我一生中从未编写过一行 Python 代码但它与 Ruby 非常相似让我注意到以下摘录自这一
gluUnProject Android OpenGL ES 1.1 用法

我正在尝试使用 gluUnProject 将 Windows 坐标转换为世界坐标我不想在模拟器或旧版 Android 系统使用 OpenGL ES v1 0 中获取工作示例这不是关于 GL 函数可用性的问题我正在尝试使用 OpenG
逻辑或运算符与按位或运算符

有谁知道为什么 if false true true System out println True else System out println False Print True if false true true System ou
如何在 Rails 中发送简单的 json 响应？

我需要发送 json 响应取决于用户在输入中输入的数据但我无法发送简单的 json 请求我关注了这篇文章 http paydrotalks com posts 45 standard json response for rails an
MSI 安装程序自定义操作身份问题

我正在创建一个在数据库上执行脚本的自定义操作问题是 connectios 使用集成安全性因此当我尝试打开连接时出现错误用户 Domain ComputerName 登录失败当我检查自定义操作的身份时使用System Securit
CSS属性在github中以红色突出显示

The touch actionSCSS 文件中的属性在 Github diff 中以红色突出显示有什么理由吗这是它的 DOM 如果存在语法错误 Github 会突出显示这样的代码它不是 100 准确而且它实际上并没有运行您的代码
Meteor-AutoForm：如何根据另一个控件更新选择选项

我一直在寻找一些问题的答案这些问题应该非常简单但我一生都无法弄清楚基本上我有一个带有两个选择控件的meteor autoform
在 Windows 7 上找不到模块“连接”

请看下面 C Program Files nodejs gt npm g install connect npm http GET https registry npmjs org connect npm http GET https re
React Native + React Native Paper 应用程序中未显示图标

这是一个新鲜的React Native应用程序使用React Native Paper 我按照以下说明进行操作https callstack github io react native paper getting started html
无法实现 grunt-connect-proxy

为了 http 127 0 0 1 9000 我得到的路线不能获取对于 v1 路线我得到未找到在此服务器上找不到请求的 URL v1 这是我的 Gruntfile js Generated on 2013 10 08 using g
计算小于当前值的值的数量

我想计算列中的行数input如果值小于当前行请参阅下面想要的结果对我来说问题是条件基于当前行值因此它与条件是固定数字的一般情况有很大不同 data lt data frame input c 1 1 1 1 2 2 3 5 5 5
绑定这个更好还是使用变量更好？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
C# 无法从传输连接读取数据：现有连接被远程主机强制关闭。读取网络流

我看过无法从传输连接读取数据连接已关闭 https stackoverflow com questions 26995191 unable to read data from the transport connection the co
JavaFX 场景的显示随机延迟

我创建了一个 JavaFX 应用程序在 Ubuntu Java SE 运行时环境版本 1 8 0 131 b11 上运行并制作了一个简单的测试应用程序 public class DelayedSceneApplication exte
Angular 2 模拟响应不起作用

我有以下 Angular 2 测试 tslint disable no unused variable import provide from angular core import MockBackend from angular htt
Pyinstaller 无法执行脚本 pyi_rth_pkgres

I converted the py script to exe using pyinstaller but when I try to run the exe I got this How can I fix it 您必须告诉 pyins
从文件express js 提供 json

新手要表达的是我有一个包含 db json 文件的文件夹并且每 11 秒就会被新的 db json 替换让express js 提供服务以便在 api 调用上显示新内容的最佳方法是什么这是我到目前为止所拥有的 const expre
具有多重身份的B2C用户

在 Azure B2C 中有多个身份提供商在本示例中我将使用本地帐户和 Google 帐户新用户使用电子邮件地址注册本地帐户电子邮件受保护 cdn cgi l email protection 他们使用该网站下次返回时他们决定
Lucene 中跨多个字段的重复值的影响

在 lucene 索引中的多个字段中重新索引相同的值会产生什么影响这个想法是某人的名字是他们的名字和一般详细信息的一部分所以我想将该值索引到多个字段中 Ted Bloggs 我可能会索引如下 Field Value firstName

Lucene 中跨多个字段的重复值的影响

Lucene 中跨多个字段的重复值的影响 的相关文章

随机推荐

热门标签

Lucene 中跨多个字段的重复值的影响的相关文章