lucene 中的高亮显示性能非常慢

2023-11-26

当搜索频繁出现的术语时，Lucene (4.6) 荧光笔的性能非常慢。搜索速度很快（100 毫秒），但突出显示可能需要一个多小时（！）。

Details:使用了很棒的文本语料库（1.5GB 纯文本）。性能并不取决于文本是否被分割成更小的部分。（也使用 500MB 和 5MB 的片段进行了测试。）位置和偏移量被存储。如果搜索非常频繁的术语或模式，TopDocs 检索速度很快（100 毫秒），但每个“searcher.doc(id)”调用都很昂贵（5-50 秒），并且 getBestFragments() 非常昂贵（超过 1 小时）。甚至它们也是为此目的而存储和索引的。（硬件：酷睿 i7、8GM 内存）

更大的背景: 它将用于语言分析研究。使用特殊的词干：它也存储词性信息。例如如果"adj adj adj adj 名词"被搜索时，它会给出文本中所有出现的内容以及上下文。

我可以调整它的性能，还是应该选择其他工具？

使用的代码：

            //indexing
            FieldType offsetsType = new FieldType(TextField.TYPE_STORED);
            offsetsType.setIndexOptions(IndexOptions.DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS);

            offsetsType.setStored(true);
            offsetsType.setIndexed(true);
            offsetsType.setStoreTermVectors(true);
            offsetsType.setStoreTermVectorOffsets(true);
            offsetsType.setStoreTermVectorPositions(true);
            offsetsType.setStoreTermVectorPayloads(true);


            doc.add(new Field("content", fileContent, offsetsType));


            //quering
            TopDocs results = searcher.search(query, limitStart+limit);

            int endPos = Math.min(results.scoreDocs.length, limitStart+limit);
            int startPos = Math.min(results.scoreDocs.length, limitStart);

            for (int i = startPos; i < endPos; i++) {
                int id = results.scoreDocs[i].doc;

                // bottleneck #1 (5-50s):
                Document doc = searcher.doc(id);

                FastVectorHighlighter h = new FastVectorHighlighter();

                // bottleneck #2 (more than 1 hour):   
                String[] hs = h.getBestFragments(h.getFieldQuery(query), m, id, "content", contextSize, 10000);

相关（未回答）问题：https://stackoverflow.com/questions/19416804/very-slow-solr-performance-when-highlighting

BestFragments 依赖于您正在使用的分析器完成的标记化。如果你要分析这么大的文本，你最好存储术语向量WITH_POSITIONS_OFFSETS在索引时。

请阅读this and 这本书

通过这样做，您不需要在运行时分析所有文本，因为您可以选择一种方法来重用现有的术语向量，这将减少突出显示时间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

lucene 中的高亮显示性能非常慢的相关文章

JNI 不满意链接错误

我想创建一个简单的 JNI 层我使用Visual studio 2008创建了一个dll Win 32控制台应用程序项目类型带有DLL作为选项当我调用本机方法时出现此异常 Exception occurred during even
ExceptionConverter：java.io.IOException：文档没有页面。我正在使用 iText

当我执行下面的代码时 File f new File c sample pdf PdfWriter getInstance document new FileOutputStream f document open System out p
IntelliJ IDEA 创建的 JAR 文件无法运行

我在 IntelliJ 中编写了一个跨越几个类的程序当我在 IDE 中测试它时它运行良好但是每当我按照教程将项目制作成 jar 可执行文件时它就不会运行双击 out 文件夹中的文件时该文件不会运行并显示无法启动 Java J
java.io.IOException: %1 不是有效的 Win32 应用程序

我正在尝试对 XML 文档进行数字签名为此我有两个选择有一个由爱沙尼亚认证中心为程序员创建的库还有一个由银行制作的运行 Java 代码的脚本如果使用官方认证中心库那么一切都会像魅力一样进行一些调整但是当涉及到银行脚本时它会
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
hibernate总是自己删除表中的所有数据

您好我正在开发一个 spring mvc 应用程序它使用 hibernate 连接到存储文件的 mysql 数据库我有两个方法一个方法添加我选择的特定文件路径中的所有文件另一种方法调用查询以返回从 mysql 存储的文件列表问题
如何在jsp代码中导入java库？

我有以下jsp代码我想添加 java io 等库我怎样才能做到这一点
使用替换字符串中多个单词的最有效方法[重复]

这个问题在这里已经有答案了此刻我正在做 Example line replaceAll replaceAll cat dog replaceAll football rugby 我觉得那很丑不确定有更好的方法吗也许循环遍历哈希图 ED
Microsoft Graph 身份验证 - 委派权限

我可以使用 Microsoft Graph 访问资源无需用户即可访问 https developer microsoft com en us graph docs concepts auth v2 service 但是此方法不允许我访问需
在具有相同属性名称的不同数据类型上使用 ModelMapper

我有两节课说Animal AnimalDto我想用ModelMapper将 Entity 转换为 DTO 反之亦然但是对于具有相似名称的一些属性这些类应该具有不同的数据类型我该如何实现这一目标动物 java public class
Java中接口作为方法参数

前几天去面试被问到了这样的问题问反转链表给出以下代码 public class ReverseList interface NodeList int getItem NodeList nextNode void reverse No
检查 Android 手机上的方向

如何查看Android手机是横屏还是竖屏当前配置用于确定要检索的资源可从资源中获取Configuration object getResources getConfiguration orientation 您可以通过查看其值来检查方向
将 Long 转换为 DateTime 从 C# 日期到 Java 日期

我一直尝试用Java读取二进制文件而二进制文件是用C 编写的其中一些数据包含日期时间数据当 DateTime 数据写入文件以二进制形式时它使用DateTime ToBinary on C 为了读取 DateTime 数据它将首
将多模块 Maven 项目导入 Eclipse 时出现问题 (STS 2.5.2)

我刚刚花了最后一个小时查看 Stackoverflow com 上的线程尝试将 Maven 项目导入到 Spring ToolSuite 2 5 2 中 Maven 项目有多个模块当我使用 STS 中的 Import 向导导入项目时所
使用 Flyway 和 Hibernate 的 hbm2ddl 在应用程序的生命周期中管理数据库模式

我正在开发 Spring Hibernate MySql 应用程序该应用程序尚未投入生产我目前使用 Hibernatehbm2ddl该功能对于管理域上的更改非常方便我也打算用Flyway用于数据库迁移在未来的某个时候该应用程序将首
Tomcat 6找不到mysql驱动

这里有一个类似的问题但关于类路径 ClassNotFoundException com mysql jdbc Driver https stackoverflow com questions 1585811 classnotfoundex
运行 Jar 文件时出现问题

我已将 java 项目编译成 Jar 文件但运行它时遇到问题当我跑步时 java jar myJar jar 我收到以下错误 Could not find the main class myClass 类文件不在 jar 的根目录中因
如何配置eclipse以保持这种代码格式？

以下代码来自 playframework 2 0 的示例 Display the dashboard public static Result index return ok dashboard render Project findInv
android Accessibility-service 突然停止触发事件

我有一个 AccessibilityService 工作正常但由于开发过程中的某些原因它停止工作我似乎找不到这个原因请看一下我的代码并告诉我为什么它不起作用 public class MyServicee extends Access
JAVA - 如何从扫描仪读取文件中检测到“\n”字符

第一次海报我在读取文本文件的扫描仪中读取返回字符时遇到问题正在读取的文本文件如下所示 test txt start 2 0 30 30 1 1 90 30 0 test txt end 第一行 2 表示两个点第二行位置索引 0 xp

随机推荐

如何在 SPSS 中循环变量？我想避免代码重复

是否有原生 SPSS 方法来循环某些变量名称我想做的就是获取变量列表我定义的并为它们运行相同的过程伪代码这不是一个很好的例子但很能说明问题 for i in varlist a b c do FREQUENCIES VARIA
CLI/C++ 到底是什么？它与“普通”c++ 有什么不同？

首先让我澄清一下普通 C 的含义我目前正在阅读 Walter Savitch 的 C 中的问题解决据我所知这不是专门为 Microsoft 或 Unix 编写的所以我的问题是我在这本书中学到的内容我用它来获取 C 的通用知识
旋转下拉列表在滚动时跳跃

为什么我的旋转器在滚动时会跳跃我只是做以下事情 ArrayAdapter
为什么可以等待 Rx observable？ [复制]

这个问题在这里已经有答案了我刚刚注意到await关键字可以与 Rx Observable 一起使用例如 await Observable Interval TimeSpan FromHours 1 我非常确定它只能与任务结合使用那么是
如何刷新数据网格

我创建 dojox grid datagrid 并填充数组中的内容如示例所示页面上的最后一个示例在一段时间内我在代码中更改了该数组的值如何刷新该网格的内容如何从更改的数组加载新数据要更改网格中的值您需要更改网格存储中的值网格
找到到任何子串的最小汉明距离的最快方法？

给定一个长字符串L和一个较短的字符串S 约束条件是L length 必须 gt S length 我想找到之间的最小汉明距离S和任意子串L长度等于S 长度让我们为此调用该函数minHamming 例如 minHamming ABCDEFG
在 Laravel 中，使用 App::make('') 而不是构造函数注入有什么缺点吗？

通常我只会通过构造函数注入依赖项但是当父类具有依赖项并且必须将它们传递给所有子类时它会变得非常冗长另一种方法是使用 this gt dependancy App make Dependancy 单独在父类中那么父构造函数和子构造函数
ASCII 调整和十进制调整指令如何工作？

我一直在努力理解 x86 汇编语言的 ASCII 调整指令我在互联网上看到所有信息告诉我不同的事情但我想这只是以不同形式解释的同一件事但我仍然不明白谁能用伪代码解释一下为什么AAA AAS我们必须从 AL 的低位半字节中加减 6
如何使用 DOJO 动态显示和隐藏整个 TabContainer？

DOJO 似乎有一些怪癖我特别需要在页面加载时隐藏 TabContainer 但在用户单击按钮后变得可见我尝试的第一件事是设置 style display none 来启动然后在单击事件上设置 style display block
在 C++/CLI 中使用 unique_ptr 时出现链接器错误

我目前正在转换我的实例auto ptr to unique ptr 但我遇到了一个问题它在代码的 C 部分中运行良好但在我的托管 C CLI 层该软件同时使用 C 和 C 中执行此操作时我收到链接错误它编译得很好但在链接时会中断
eval 与函数构造函数

我正在读关于eval在 MDN 上它似乎表明有点 better 替代eval是使用一个函数构造器 MDN 似乎强调与使用函数构造函数相比使用函数构造函数的安全风险较小eval as 第三方代码可以看到调用 eval 的范围这可能会导
初学者摇摆

我想创建一个简单的 Swing 应用程序然而我对 Swing 的经验非常非常少我想创建一个单窗口应用程序每 5 分钟刷新一次我所做的屏幕抓取内容我正在使用 Clojure 来编写代码我认为 Swing 是解决这个问题的方法但如
sscanf 行为/返回值

我是一名学习 C 的新手并试图从在线讲座中理解以下代码它扫描字符串中的整数如果遇到字符则 sscanf 失败 int n char c if sscanf string d c n c 1 return the integer el
如何选择 git rebase 的合并策略？

git rebase手册页提到 X
Mongo查询需要很长时间。怎么让它更快呢？

我在 Node js 中使用 mongoose 驱动程序我的架构 let sendResultSchema mongoose Schema emailId String email String letterId String sende
为什么编译器没有预定义 NULL

这个问题困扰了我一段时间我从未见过 NULL 的不同定义它总是 define NULL void 0 是否有任何体系结构对 NULL 进行了不同的定义如果是这样为什么编译器不为我们声明这一点 C 2011 标准在线草稿 6 3 2
JavaScript 中的“调用堆栈”与“执行上下文堆栈”相同吗？

我经常在很多文章中看到调用堆栈像这样 https hackernoon com understanding js the event loop 959beae3ac40 ec22 但在ECMAScript文档中找不到调用堆栈调用堆栈
编译器如何区分“vector::insert”的两种变体？

我正在实现一个简单的std vector 那里有两个insert功能 template
双击 UITableViewCell

我想要单击和双击UITableViewCell 我已经为UITableview 我怎样才能做到这一点正确的方法是将 UITapGestureRecognizer 添加到 tableView 上 UITapGestureRecognizer
lucene 中的高亮显示性能非常慢

当搜索频繁出现的术语时 Lucene 4 6 荧光笔的性能非常慢搜索速度很快 100 毫秒但突出显示可能需要一个多小时 Details 使用了很棒的文本语料库 1 5GB 纯文本性能并不取决于文本是否被分割成更小的部分也使用 500

lucene 中的高亮显示性能非常慢

lucene 中的高亮显示性能非常慢 的相关文章

随机推荐

热门标签

lucene 中的高亮显示性能非常慢的相关文章