Lucene 上打开的文件太多错误

2024-04-18

我正在进行的项目是对一定数量的数据（长文本）建立索引，并将它们与每个时间间隔（大约 15 到 30 分钟）的单词列表进行比较。

一段时间后，比如说第 35 轮，在开始索引第 36 轮的新数据集时，发生了此错误：

    [ERROR] (2011-06-01 10:08:59,169) org.demo.service.LuceneService.countDocsInIndex(?:?) : Exception on countDocsInIndex: 
    java.io.FileNotFoundException: /usr/share/demo/index/tag/data/_z.tvd (Too many open files)
        at java.io.RandomAccessFile.open(Native Method)
        at java.io.RandomAccessFile.<init>(RandomAccessFile.java:233)
        at org.apache.lucene.store.SimpleFSDirectory$SimpleFSIndexInput$Descriptor.<init>(SimpleFSDirectory.java:69)
        at org.apache.lucene.store.SimpleFSDirectory$SimpleFSIndexInput.<init>(SimpleFSDirectory.java:90)
        at org.apache.lucene.store.NIOFSDirectory$NIOFSIndexInput.<init>(NIOFSDirectory.java:91)
        at org.apache.lucene.store.NIOFSDirectory.openInput(NIOFSDirectory.java:78)
        at org.apache.lucene.index.TermVectorsReader.<init>(TermVectorsReader.java:81)
        at org.apache.lucene.index.SegmentReader$CoreReaders.openDocStores(SegmentReader.java:299)
        at org.apache.lucene.index.SegmentReader.get(SegmentReader.java:580)
        at org.apache.lucene.index.SegmentReader.get(SegmentReader.java:556)
        at org.apache.lucene.index.DirectoryReader.<init>(DirectoryReader.java:113)
        at org.apache.lucene.index.ReadOnlyDirectoryReader.<init>(ReadOnlyDirectoryReader.java:29)
        at org.apache.lucene.index.DirectoryReader$1.doBody(DirectoryReader.java:81)
        at org.apache.lucene.index.SegmentInfos$FindSegmentsFile.run(SegmentInfos.java:736)
        at org.apache.lucene.index.DirectoryReader.open(DirectoryReader.java:75)
        at org.apache.lucene.index.IndexReader.open(IndexReader.java:428)
        at org.apache.lucene.index.IndexReader.open(IndexReader.java:274)
        at org.demo.service.LuceneService.countDocsInIndex(Unknown Source)
        at org.demo.processing.worker.DataFilterWorker.indexTweets(Unknown Source)
        at org.demo.processing.worker.DataFilterWorker.processTweets(Unknown Source)
        at org.demo.processing.worker.DataFilterWorker.run(Unknown Source)
        at java.lang.Thread.run(Thread.java:636)

我已经尝试通过以下方式设置最大打开文件数：

        ulimit -n <number>

但一段时间后，当区间有大约1050行长文本时，就会出现同样的错误。但这种事只发生过一次。

我应该遵循修改 Lucene IndexWriter 的 mergeFactor 的建议吗（打开的文件太多）-SOLR https://issues.apache.org/jira/browse/SOLR-4或者这是索引数据量的问题？

我还读到它是批量索引或交互式索引之间的选择。如何仅通过频繁更新来确定索引是否是交互式的？那么我应该将这个项目归类为交互式索引吗？

更新：我正在添加 IndexWriter 的片段：

        writer = new IndexWriter(dir, new StandardAnalyzer(Version.LUCENE_30), IndexWriter.MaxFieldLength.UNLIMITED);

似乎 maxMerge （？或字段长度...）已经设置为无限。

我已经使用了 ulimit 但错误仍然显示。然后我检查了 lucene 功能的定制核心适配器。事实证明，有太多 IndexWriter.open 目录处于打开状态。

需要注意的是，处理后，总是会调用关闭打开的目录。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

Indexing

Lucene

IOException

filenotfound

Lucene 上打开的文件太多错误的相关文章

将静态链接的 elf 二进制文件转换为动态链接的

我有一个 elf 二进制文件它已静态链接到 libc 我无权访问其 C 代码我想使用 OpenOnload 库它在用户空间中实现了套接字因此与标准 libc 版本相比提供了更低的延迟 OpenOnload 实现标准套接字 api 并
如何在 Python 中将列表变量传递给 subprocess.call 命令

我有一个清单 apps apps append wq35a5huqlja45jsyukrpmwuiayovrmh apps append q7mimvgduueernwvw4y22t5huemykntw apps append pmudbp
如何以编程方式区分不同的 IOException？

我正在对写入 Process 对象的 StandardInput 流的代码进行一些异常处理 Process 有点像 unix head 命令它只读取输入流的一部分当进程终止时写入线程会失败并显示 IOException The pip
Plink 通过 C# 返回不需要的字符

通过 C 使用 Plink 时我在结果前后收到不需要的字符 Command ls l informatica tgtdynamicparams out grep vaulttest grep Sep 1 awk print 9 sort
Shell Linux：grep 带有 NULL 字符的精确句子

我有一个像这样的文件 key 0value n akey 0value n key2 0value n 我必须创建一个以单词作为参数的脚本我必须返回具有与参数完全相同的键的每一行 I tried grep aF key x0 但 grep
什么是 Linux 上易于使用的 C++ 分析器？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我需要分析一些在 Linux 上运行 C 的代码你们能推荐一些分析器吗使用 gprof 只需编译 pg标志我认为但不确定你必须关
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
如果从 Java 启动，子进程将忽略 SIGQUIT

举这个简单的例子 public class Main public static void main String args throws Exception Runtime getRuntime exec sleep 1000 This
如何在 linux bash shell 中对字符串数组进行排序？ [复制]

这个问题在这里已经有答案了例如数组是 link2 pathname link1 pathname link3 pathname 我怎样才能得到像下面这样的数组 link1 pathname link2 pathname link3 pa
Linux 中 NDIS 过滤器的类似物是什么？

我正在研究一个as close to real time我在linux中尽可能地使用系统并且需要在收到特定数据包后立即发送大约600 800字节的TCP数据包为了获得最佳的延迟我希望这个数据包直接从内核发送而不是将接收到的数据包一直
在 Kali (Debian) 中安装 mono-devel 时，软件包具有未满足的依赖关系

我尝试安装 mono devel 并输入sudo apt get mono devel在终端中但失败了得到以下结果 apt get install mono devel Reading package lists Done Buildi
窗口放置：适用于 Linux (KDE) 的类似 WinSplit Revolution 的应用程序？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案适用于 Linux KDE 的类似 WinSplit Revolution 的应用程序是什么或者也许 KDE 中有一个我缺少的功能平铺通常是窗口管
为什么MongoDB不同的查询计划显示不同的nReturned值？

我有一个收藏faults in my MongoDB每个文档都有这些字段的数据库 rack name timestamp 只是为了测试和比较性能我创建了这两个索引 rack gt rack name 1 and time gt times
如何在没有 root 访问权限的情况下在 Ubuntu 上安装 Google Test？

我正在尝试根据以下方式安装 Google Test这个答案 https stackoverflow com a 21314020 6560773在没有 root 访问权限的 Ubuntu 上因为我需要在工作中学习和使用它设法在我自己的用
c 中的分叉和管道过程

所以我有一个项目要做但我完全被难住了我花了十个小时却一无所获我并不是特别想要答案的代码但是一些伪代码和正确方向的良好提示将有帮助它分叉多个进程 k 命令行参数通过管道连接每个进程都连接到下一个进程最后一个进程连接到第一个进程
无法使用 sysctl 更改每个进程的最大打开文件数

我的实际极限是1024 ulimit a core file size blocks c 0 data seg size kbytes d unlimited scheduling priority e 0 file size blocks
Bash：更新文件中的变量

我知道这是一个简单的答案在找到答案之前我可能可以继续在谷歌上进行挖掘但我的日程很紧我希望能得到一个轻松的答复我需要在安装时更新 ifcfg eth0 中的变量换句话说这就是需要发生的事情以下变量需要更改 ONBOOT no B
将管道输入转储到文件的简单方法是什么？ (Linux)

我正在寻找一个小 shell 脚本它可以将任何内容通过管道传输到其中并将其转储到文件中用于电子邮件调试目的有任何想法吗 unix 命令 tee 可以做到这一点 man tee
用索引更新表太慢

我正在观察我们应用程序的实时系统上的探查器我发现我们定期每秒运行一条更新指令速度相当慢每次大约需要400ms 查询包含此更新这是缓慢的部分 UPDATE BufferTable SET LrbCount LrbCount 1 L
如何尽可能快地输出固定缓冲区？

示例代码 include

随机推荐

使用 terraform 将公共 GKE 更改为私有 GKE 集群

如何将现有的GKE集群更改为GKE私有集群我是否能够根据防火墙规则从互联网连接到 Kubectl API 还是应该拥有堡垒主机我不想实施Cloud Nat or nat gateway 我有一个鱿鱼代理虚拟机可以处理 Pod 的互联网
如何使用 javascript/jquery 设置 asp 面板元素可见/隐藏

我有一个asp Panel我的页面上的元素我可以在后面的代码中设置其可见性但我还需要通过 javascipt 隐藏它 My panel定义如下
使用 docker-client api 将镜像推送到 docker 注册表

在探索 docker client api java 时设置与虚拟机上运行的 docker 守护进程的连接到底需要哪些证书我在网上找到的代码 Create a client based on DOCKER HOST and DOCKER
Hibernate 单向一对多关联 - 为什么连接表更好？

在本文档中向下滚动到单向部分 http docs jboss org hibernate stable annotations reference en html single entity mapping association col
自动替换在 emacs 中输入的某些文本字符串

有一个小细节一直困扰着我一段时间即我经常打字 inclued代替 include 如果不是很明显的话我编写了大量 C 和 C 程序这个拼写错误破坏了无数的构建并消耗了本来可以用来喝咖啡或冲浪的时间当然 emacs 可以提供帮助并在我
当 ExceptionMapper 创建响应时，未遍历 RestEasy 后处理拦截器链

我正在使用 RestEasy 构建我的 Restful Web 服务我已经实现了 ExceptionMappers 来准备特定的异常响应我还实现了 MessageBodyWriterInterceptors 和几个 PostProces
EasyMock的使用方法

期望似乎对我不起作用 package com jjs caf library client drafting import static org junit Assert import org easymock EasyMock impor
用于从段落中删除所有属性的正则表达式

我知道正则表达式通常不应该用于解析 html 内容在我的特殊情况下我需要它们原因是我使用 rte 编辑器并且在粘贴到编辑器中时需要对段落属性进行一些替换我有类似的东西 p text blah blah p 我需要删除所有属性以
数组中的clear方法

我正在尝试创建一个清除方法来清除我拥有的数组我已经看到使用清除方法是我所需要的但我似乎无法使用它 list clear 我认为我必须做的 public void clear return doctors clear 顺便说一下医生是一
参数和属性之间的区别[重复]

这个问题在这里已经有答案了可能的重复 getAttribute 和 getParameter 之间的区别 https stackoverflow com questions 5243754 difference between getat
当我的 MySQL 表更新时，如何收到电子邮件？

您好我想知道 MySQL 中是否有一种方法可以在 MySQL 表中添加一行时自动向自己发送电子邮件实现这一目标的最佳方法是使用触发器和 cron 创建一个通知队列表并在将行插入所需表时使用触发器填充该表 eg CREATE TAB
如何在 R 中创建类似箱线图的分类散点图？

有谁知道如何创建散点图R创建像这样的情节these http graphpad com support faq graph tip how can i make a barcolumn graph that also shows the i
使用 zip4j 重命名 zip 中的文件

我在用着zip4j http www lingala net zip4j download php1 3 1 在我的应用程序中压缩文件现在我尝试重命名 zip 内的文件而不必重命名文件本身似乎有一种方法可以做到这一点但它不起作用我
将当前日期设置为在 Bootstrap 日期选择器中选择

我在用引导日期选择器 https github com eternicode bootstrap datepicker在我的代码中如何在 JavaScript 中选择当前日期并将其显示为已选择经过研究这是我正在使用的代码但当天没有显
本地 JS 文件的 Typescript 声明文件

当我们正在转换为 Typescript 的过程中我正在尝试为工作中的 Javascript 文件添加类型但是我无法识别声明文件这是我的文件结构 js Foo js typings Foo 索引 d ts index ts 包 jso
Symfony 4：JWT 和 Behat 的测试数据库

我将 API Platform 2 1 与 Symfony 4 结合使用并使用 LexikJWTAuthenticationBundle 进行身份验证并使用 Behat 进行测试我无法正确设置这是到目前为止我的配置 Feature
将使用 FPDF php 库创建的 PDF 保存在 MySQL blob 字段中

我需要创建一个 pdf 文件fpdf http www fpdf org库并将其保存在我的 MySQL 数据库的 blob 字段中问题是当我尝试从 blob 字段检索文件并将其发送到浏览器进行下载时下载的文件已损坏并且无法正确显示如
列出本地打印机

我使用此例程列出计算机上安装的本地打印机 var p pointer hpi PRINTER INFO 2A hGlobal cardinal dwNeeded dwReturned DWORD bFlag boolean i dword
是否有一个库可以将 java 命令行选项解析为关联数组？

我需要一个可以采用以下形式的命令行选项的库java jar aaa a bbb b ccc c并返回一个数组其值可以通过以下方式访问argsArray aaa argsArray bbb etc 有一些带有示例的库可以做到这一点吗 Jav
Lucene 上打开的文件太多错误

我正在进行的项目是对一定数量的数据长文本建立索引并将它们与每个时间间隔大约 15 到 30 分钟的单词列表进行比较一段时间后比如说第 35 轮在开始索引第 36 轮的新数据集时发生了此错误 ERROR 2011 06 01

Lucene 上打开的文件太多错误

Lucene 上打开的文件太多错误 的相关文章

随机推荐

热门标签

Lucene 上打开的文件太多错误的相关文章