索引频繁更新的FieldCache

2023-12-02

Hi
我的 lucene 索引经常使用新记录进行更新，我的索引中有 5,000,000 条记录，并且我正在使用 FieldCache 缓存我的数字字段之一。但是更新索引后，需要时间再次重新加载 FieldCache（我重新加载缓存，因为文档说 DocID 不可靠），所以如何通过仅将新添加的 DocID 添加到 FieldCache 来最小化这种开销，因为此功能变成了我的瓶颈应用。


IndexReader reader = IndexReader.Open(diskDir);
int[] dateArr = FieldCache_Fields.DEFAULT.GetInts(reader, "newsdate"); // This line takes 4 seconds to load the array
dateArr = FieldCache_Fields.DEFAULT.GetInts(reader, "newsdate"); // this line takes 0 second as we expected
// HERE we add some document to index and we need to reload the index to reflect changes

reader = reader.Reopen();
dateArr = FieldCache_Fields.DEFAULT.GetInts(reader, "newsdate"); // This takes 4 second again to load the array

我想要一种机制，通过仅将新添加的文档添加到数组中的索引来最小化这个时间，有一种这样的技术http://invertedindex.blogspot.com/2009/04/lucene-dociduid-mapping-and-payload.html提高性能，但它仍然加载我们已有的所有文档，并且我认为如果我们找到一种仅将新添加的文档添加到数组中的方法，则无需重新加载所有文档

FieldCache 使用对索引读取器的弱引用作为其缓存的键。（通过调用IndexReader.GetCacheKey尚未废弃。）标准调用IndexReader.Open with a FSDirectory将使用一组读者，每个细分市场都有一个读者。

您应该始终将最里面的读取器传递给 FieldCache。查看ReaderUtil对于一些辅助工具来检索包含在其中的单个读者的文档。文档 ID 不会在段内更改，当将其描述为不可预测/易失性时，它们的意思是它会在两次索引提交之间更改。可能会发生已删除的文档、已合并片段等操作。

提交需要从磁盘中删除该段（合并/优化），这意味着新的读取器不会拥有池化的段读取器，并且一旦所有旧读取器关闭，垃圾收集就会将其删除。

永远，永远，打电话FieldCache.PurgeAllCaches()。它用于测试，而不是生产用途。

2011-04-03 添加；使用子阅读器的示例代码。

var directory = FSDirectory.Open(new DirectoryInfo("index"));
var reader = IndexReader.Open(directory, readOnly: true);
var documentId = 1337;

// Grab all subreaders.
var subReaders = new List<IndexReader>();
ReaderUtil.GatherSubReaders(subReaders, reader);

// Loop through all subreaders. While subReaderId is higher than the
// maximum document id in the subreader, go to next.
var subReaderId = documentId;
var subReader = subReaders.First(sub => {
    if (sub.MaxDoc() < subReaderId) {
        subReaderId -= sub.MaxDoc();
        return false;
    }

    return true;
});

var values = FieldCache_Fields.DEFAULT.GetInts(subReader, "newsdate");
var value = values[subReaderId];

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

索引频繁更新的FieldCache 的相关文章

使用 JNI 从 Java 代码中检索 String 值的内存泄漏

我使用 GetStringUTFChars 从使用 JNI 的 java 代码中检索字符串的值并使用 ReleaseStringUTFChars 释放该字符串当代码在 JRE 1 4 上运行时不会出现内存泄漏但如果相同的代码在 JR
未定义的行为或误报

我基本上在野外遇到过以下情况 x x 5 显然它可以在早期版本的 gcc 下编译干净在 gcc 4 5 1 下生成警告据我所知警告是由 Wsequence point 生成的所以我的问题是这是否违反了标准中关于在序列点之间操
未经许可更改内存值

我有一个二维数组当我第一次打印数组的数据时日期打印正确但其他时候 array last i 的数据从 i 0 到 last 1 显然是一个逻辑错误但我不明白原因因为我复制并粘贴了 for 语句那么 C 更改数据吗 I use g
bufferedinputstream 中标记读取限制有什么用

我是Java流的新手我想读取特定的文件内容然后需要从头开始读取我创建了一个 BufferedInputStream 但我对 BufferedInputStream mark int markLimit 的文档感到困惑文档说 publ
如何使用 watin 中的 FileUploadDialogHandler 访问文件上传对话框

我正在使用 IE8 和 watin 并尝试通过我的网页测试上传文件我不能简单地使用 set 方法设置上传文件例如 ie FileUpload Find ById someId Set C Desktop image jpg 因为上传文本
将 log4net 与 Autofac 结合使用

我正在尝试将 log4net 与 Autofac 一起使用我粘贴了这段代码http autofac readthedocs org en latest examples log4net html http autofac readthed
等待线程完成

private void button1 Click object sender EventArgs e for int i 0 i lt 15 i Thread nova new Thread Method nova Start list
javax.xml.bind.JAXBException: 类 *** 及其任何超类在此上下文中均未知

我正在尝试通过 REST Web 服务传递对象以下是我的课程使用一些示例代码解释了我需要的功能 Rest Web 服务类方法 POST Path find Consumes MediaType APPLICATION FORM URLE
如何在速度模板中检索哈希图值

如何从速度模板中的以下哈希图中检索值请帮忙 LinkedHashMap
while 之后无法访问的语句[重复]

这个问题在这里已经有答案了我只是修改代码在以下代码中出现错误 int x 1 System out println x x while true x System out println x x 错误在最后一行我可以知道错误错误无
有人可以提供一个使用 Amazon Web Services 的 itemsearch 的 C# 示例吗

我正在尝试使用 Amazon Web Services 查询艺术家和标题信息并接收回专辑封面使用 C 我找不到任何与此接近的示例所有在线示例都已过时并且不适用于 AWS 的较新版本有一个开源项目CodePlex http www c
为什么在setsid()之前fork()

Why fork before setsid 守护进程基本上如果我想将一个进程与其控制终端分离并使其成为进程组领导者我使用setsid 之前没有分叉就这样做是行不通的 Why 首先 setsid 将使您的进程成为进程组的领导者但它也
Process.Start() 方法在什么情况下返回 false？

From MSDN https msdn microsoft com en us library e8zac0ca v vs 110 aspx 返回值 true 表示有新的进程资源开始了如果由 FileName 成员指定的进程资源 St
Linq-to-entities，在一个查询中获取结果+行数

我已经看到了有关此事的多个问题但它们已经有 2 年或更长的历史了所以我想知道这方面是否有任何变化基本思想是填充网格视图并创建自定义分页所以我还需要结果和行数在 SQL 中这将类似于 SELECT COUNT id Id N
将自定义 ValueProviderFactories 添加到 ASP.NET MVC3？

我试图尝试将 Protobuf ValueProviderFactory 添加到 MVC3 以便我可以选择 MIME 类型并将原始数据反序列化为操作参数的对象我还可以使用它来更改默认的 Json 序列化器看着JsonValueProvi
如何将 Roslyn 语义模型返回的类型符号名称与 Mono.Cecil 返回的类型符号名称相匹配？

我有以下代码 var paramDeclType m semanticModel GetTypeInfo paramDecl Type Type Where paramDeclType ToString returns System Col
使用 GhostScript.NET 打印 PDF DPI 打印问题

我在用GhostScript NET http ghostscriptnet codeplex com打印 PDF 当我以 96DPI 打印时 PDF 打印效果很好但有点模糊如果我尝试以 600DPI 打印文档打印的页面会被极大地放大
检查Windows控制台中是否按下了键[重复]

这个问题在这里已经有答案了可能的重复 C 控制台键盘事件 https stackoverflow com questions 2067893 c console keyboard events 我希望 Windows 控制台程序在按下某个
使用 PDFBox 在 Android 中创建 PDF

我正在尝试通过我的 Android 应用程序创建 PDFPDFBoxapi 但出现以下错误 java lang NoClassDefFoundError org apache pdfbox pdmodel PDDocument 我已经将以下
如何使用 Word Automation 获取页面范围

如何使用办公自动化找到 Microsoft Word 中第 n 页的范围似乎没有 getPageRange n 函数并且不清楚它们是如何划分的这就是您从 VBA 执行此操作的方法转换为 Matlab COM 调用应该相当简单 Pub

随机推荐

隐藏 ViewController 后实例化按钮不起作用

我刚刚发现这个非常奇怪的问题我有这个button这是触发这个function objc func vergessenTapped let forgotPasswordVC self storyboard instantiateViewCo
查找具有 n 个元素的表的最佳列和行大小以及其比例的给定范围

我正在寻找一种从 n 个元素创建表格的最佳方法以便理想情况下没有空单元格但同时表格尺寸列行的比例变得尽可能接近 1 当然如果 n 是平方数那么就很容易 cols rows sqrt n 如果 n 是素数那么很明显会有空单元格所
在 Github 操作中获取修改后的文件

我的存储库中有 2 个 Github Actions 工作流程其中一个步骤需要获取 PR 中已修改的所有文件删除的文件除外我在第一个中使用这个 on pull request branches main jobs get files
Java 方法有排序约定吗？ [关闭]

Closed 这个问题需要多问focused 目前不接受答案我有一个大型类大约 40 个方法它是我将作为课程作业提交的包的一部分目前这些方法在公用私有等方面相当混乱我想以合理的方式对它们进行排序有这样做的标准方法吗例如通
带有动态类名的 PHP 命名空间

想知道其他人在使用 PHP 5 3 命名空间类的新功能时是否遇到过这个问题我正在生成一个动态类调用利用一个单独的类来定义应用程序中的用户类型基本上类定义器采用类型的整数表示形式并解释它们返回一个包含类名的字符串该类名将被称为该用
将 git 子模块中的更改推送到主模块，但不推送到子模块

我有一个 git 项目 A 它使用来自 Github 的子模块 B 我无法推送到 Github 项目 B 因为它不是我的我想在B中做一个小的改变不推送到远程B 因为我无法推送但应该推送到A 所以当有人使用A时他应该能够看到我的更改
Python递归函数错误：“超出最大递归深度”[重复]

这个问题在这里已经有答案了我使用以下代码解决了 Project Euler 的问题 10 该代码通过暴力破解 def isPrime n for x in range 2 int n 0 5 1 if n x 0 return False
“缩进中制表符和空格的使用不一致”[重复]

这个问题在这里已经有答案了我正在尝试在 Python 3 2 中创建一个应用程序并且一直使用制表符进行缩进但即使是编辑器也会将其中一些更改为空格然后当我尝试运行时打印出缩进中制表符和空格的使用不一致该程序如何将空格改为制表符
如何在spring data @Query中使用属性

我无法设法将 application yml 中的属性注入到 spring data Query 中以下结果会导致 EL1008E 错误 public interface MyRepository extends JpaRepositor
如何通过PHP和Linux使用pdo连接mssql？

我正在尝试使用以下代码建立新的 PDO 连接 new PDO mssql driver Server serverName Database databaseName username password array PDO ATTR PER
组合框问题：无法绑定到新值成员

我创建了一个作为用户控件的组合框它实际上由标签组合框和文本框组成我正在尝试将数据集绑定到组合框数据源但我不断收到有关 ValueMember Display 成员的错误消息 Cannot bind to the new displa
如何在屏幕底部添加工具栏？

我是新来的我需要你的帮助因为我不知道一些事情例如我为我的应用程序放置了一个工具栏而不是在屏幕顶部放置操作栏现在我想在底部放置一个工具栏那么我该怎么做呢工具栏是正确的方式并且它兼容android 4 0 谢谢您的回答编辑
表示任何双精度值所需的最大字符长度是多少？

当我将无符号 8 位 int 转换为字符串时我知道结果始终最多为 3 个字符对于 255 而对于有符号 8 位 int 我们需要 4 个字符例如 128 现在我真正想知道的是浮点值也是一样的将任何双精度或浮点值表示为字符串所
openssl ssl 加密

我想讨论一下openssl的写入和读取方法假设我有一个如下所示的数据结构 my header PAYLOAD not encrypted encrypted I think the proper al
itextsharp：如何找到矩形的填充颜色

我按照 ItextSharp 示例获取图形结构使用代码获取矩形坐标 class VectorGraphicsListener IExtRenderListener public void ModifyPath PathConstructi
使用“Codable”设置属性值无法通过继承起作用

我无法设置b子类中的属性它是继承自的父类Codable 这似乎运作良好我觉得我错过了一些非常明显的东西但我很难只见树木下面是我的问题的游乐场示例 b尽管设置为但仍为 010 传入的是子类但可以设置父类属性非常奇怪 class
暂停命令行 python 程序的最简单方法？

假设我有一个 python 程序它会输出文本行例如 while 1 print This is a line 允许用户按下键盘上的某个键来暂停循环然后在再次按下时恢复最简单的方法是什么但如果没有按下任何按钮它应该自动继续我希望
无法在 VSCode 中运行 Jupyter Notebook - Vanilla Python、Windows 10

我的 Windows 10 计算机上安装了现有的普通 Python 但我不想重新安装 Anaconda 当尝试在 vscode 中运行 ipynb 文件中的代码时出现以下错误 Error Jupyter cannot be started
在 bash 程序中获取“[：=：预期一元运算符”[重复]

这个问题在这里已经有答案了我一直在开发一个示例 bash 程序来练习 bash 脚本编写但每当我尝试使用正确的变量运行它时它都会输出预期的一元运算符并退出 bin bash clear i P PASSWORD echo Plea
索引频繁更新的FieldCache

Hi我的 lucene 索引经常使用新记录进行更新我的索引中有 5 000 000 条记录并且我正在使用 FieldCache 缓存我的数字字段之一但是更新索引后需要时间再次重新加载 FieldCache 我重新加载缓存因为文档说

索引频繁更新的FieldCache

索引频繁更新的FieldCache 的相关文章

随机推荐

热门标签