Solr/Lucene 中按日期排序的性能问题

2024-01-09

我们建立了一个包含 3600 万个文档（每个约 1K-2K）的 Solr 索引，并且我们尝试查询最多 100 个与单个简单关键字匹配的文档。正如我们所希望的那样，这工作得非常快。但是，如果我们现在将“&sort=createDate+desc”添加到查询中（从而要求匹配查询的前 100 个“新”文档），它会运行很长很长的时间，最终导致 OutOfMemoryException。根据我从手册中了解到的情况，这是由于 Lucene 需要先将该字段 (createDate) 的所有不同值加载到内存中（FieldCache afaik），然后才能执行查询。由于 createDate 字段包含日期和时间，因此不同值的数量非常大。另外值得一提的是我们经常更新索引。

也许有人可以提供一些关于如何调整 Lucene / Solr 或改变我们的方法以使查询时间变得可接受的见解和方向？我们将非常感谢您的意见！谢谢。

问题是 Lucene 将数字存储为字符串。有一些实用程序将日期拆分为 YYYY、MM、DD 并将它们放在不同的字段中。这会带来更好的结果。

较新版本的 Lucene（2.9 及以上）支持数字字段，并且性能改进非常显着（几个数量级，IIRC。）this http://www.lucidimagination.com/blog/2009/05/13/exploring-lucene-and-solrs-trierange-capabilities/关于数字查询的文章。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Lucene

Solr

Solr/Lucene 中按日期排序的性能问题的相关文章

yii2 作曲家更新致命错误

当我更新我的作曲家以添加yii2 solr扩展我的项目时我遇到如下错误 The yiisoft yii2 composer plugin requires composer plugin api 1 0 0 this WILL break
Lucene 3 上的“令牌”列表

我是 Lucene 的新手我开始学习版本 3 分支但有一件事我不明白显然是因为我在该主题上没有经验在 Lucene 2 9 中如果我想要一个令牌列表我会创建一个 Token 类的 ArrayList 例如 ArrayList 这
如何使用 pysolr 对 solr 进行原子更新？

我找不到关于如何使用 pysolr 更新 solr 的合适文档截至 2014 年 11 月原子更新 https github com toastdriven pysolr commit c49be48d459448532b5ad0f505
solr索引嵌套文档

solr支持嵌套文档吗有没有更好的方法来实现这种文档
了解elasticsearch如何在内部存储日期

我想了解 ES 如何在其索引内部存储日期值它会转换为 UTC 吗我有一个日期类型的字段 t 这是映射 t type date 现在当我向 ES 插入添加文档时它如何存储在索引中 t 1427700477165 从 Date now
Elasticsearch 中的嵌套与对象

有人可以解释 Elasticsearch 文档中对象和嵌套字段之间的区别吗我知道默认情况下字段被定义为对象我还知道我可以用这样的点访问对象字段 my field name my field title 等对象的文档 http
在具有多个 Web 服务器的现有 .NET / SQL Server 堆栈上实施 Lucene

我想考虑使用 Lucene 为我当前管理的网站提供全文搜索解决方案该网站完全基于 SQL Server 2008 C NET 4 技术构建我要索引的数据实际上非常简单每个记录只有几个字段并且只有其中一个字段实际上是可搜索的我不清楚
ckan本地安装，solr JSP支持未配置500错误

我正在尝试使用 Ubuntu 14 04 LTS 在本地计算机上安装 CKAN 我按照从找到的源安装的说明进行操作here http docs ckan org en latest maintaining installing instal
Solr MoreLikeThis 不适用于多个分片？

我在 SolrCloud 中有 5 个节点集群每个节点有 2 个分片 Solr版本 6 3 0 现在当我运行 mlt 查询时它仅返回每个节点的结果并且不会将它们分布在所有分片节点上即没有给出任何结果给出结果我什至尝试将其指
如何使用 Solr 索引 pdf 内容？

我正在尝试使用 SolrJ 索引一些 pdf 文档如下所述http wiki apache org solr ContentStreamUpdateRequestExample http wiki apache org solr Cont
Solr 过滤查询 - 字符串与整数

假设我正在尝试查询一堆具有类别的文档并且我想将查询限制为指定的类别据我所知这只是使用 fq 参数过滤器查询我想知道将参数设置为整数而不是字符串或数据通常的情况是否会提高性能我只是会在右侧犯错但我想我应该仔细检查一下以防万一
Solr 您的意思是（拼写检查组件）

我在我的应用程序中使用 solr 并集成了拼写检查组件但我遇到了一些问题第一的当我输入一个用空格分隔的术语时他们会给我每个术语的更正 Eg 水 gt 什么术语但事实是watters 第二当我输入一些带有错误术语的短语时尽管其他
Solr：在带有空格的字符串上使用通配符

我的问题与这里讨论的问题基本相同带空格的 Solr 通配符查询 https stackoverflow com questions 10023133 solr wildcard query with whitespace 但这个问题没有得
Lucene 4.0 中的术语频率

尝试使用 Lucene 4 0 计算词频我的文档频率工作得很好但不知道如何使用 API 来执行术语频率这是我的代码 private static void addDoc IndexWriter writer String conten
用于标签搜索的数据存储解决方案

我已经按照预先计算的分数订购了数百万件商品每个项目都有许多布尔属性假设总共有大约一万个可能的属性每个项目有十几个我希望能够请求实时几毫秒给定任意属性组合的前 n 个项目您会推荐什么解决方案我正在寻找可扩展性极强的东西我们目
Solr/Solrj 分页

我正在创建的 Web 应用程序中使用 solr 和 solrj 来实现索引和搜索功能我的请求处理程序在 solrconfig xml 中配置如下
在 MongoDB 和 Apache Solr 之间同步数据的简单方法

我最近开始使用 MongoDB 和 Apache Solr 我使用 MongoDB 作为数据存储并且希望 Apache Solr 为我的数据创建索引以实现应用程序中的搜索功能经过一些研究我发现基本上有两种方法可以在 MongoDB
Solr 中的拼写检查中阈值频率不起作用

我得到stuck在中间Solr 我只需要最流行的词 w r t query 我用过语音过滤器双方索引和查询但这里的problem是它正在给予术语太多我只需要几个术语这是非常具体的query 模式 xml
Solr 突出显示是否还可以指示返回片段在原始字段内的位置或偏移量？

背景使用Solr 4 0 0 我已经对一组示例文档的文本建立了索引并启用了术语向量以便我可以使用快速向量突出显示
SpatialQuery 使用 Lucene 进行基于位置的搜索

我的 lucene 索引已索引纬度和经度字段如下所示 doc Add new Field latitude latitude ToString Field Store YES Field Index UN TOKENIZED doc Ad

随机推荐

使用 PANDAS 在数据帧列中查找多个精确的字符串匹配

我有数百万个条目数据集其中包含人类输入的观察结果以指示某些操作结果尝试创建一些类别我需要查看此列并提取某些确切的内容最常用的表达方式它们可以出现在字符串的开头结尾或中间并且可以缩写也可以不缩写我构建了以下示例 data
Netbeans 不会自动缩进 (Java)

我有一个大学项目我必须编写一个 Java 应用程序由于我们使用 Netbeans 作为 IDE 来学习 Java 因此我决定使用此 IDE 来编写应用程序代码我以前的电脑上从未遇到过这个错误现在当我在编写函数或任何其他块后打开时
加载脚本时何时使用异步与延迟？

所以我最近了解到将 js 放在 DOM 底部已经过时了我应该再次将它们放在具有 async 和 defer 属性伟大的但我对根据优先级应该使用哪个感到有点困惑所以我有 jquery jquery 插件不会立即影响外观页对页面外
C# wpf 滚动查看器不像 Windows 商店应用程序那样工作

我目前正在开发一个使用 WPF 的应用程序我不得不注意到 ScrollViewer 功能与 Windows 应用商店应用程序变体相比的差异当我位于屏幕边缘和 ScrollViewer 边缘时我想要滑动以便远离边缘我看到 Window
MySQL IN 子句中的多列

我有一个数据库其中有四列分别对应于起始位置和结束位置的地理坐标 x y 这些列是 x0 y0 x1 y1 我有这四列的索引序列为 x0 y0 x1 y1 我有一份大约一百个地理对组合的清单我将如何有效地查询这些数据我想做这样的事情
没有虚拟构造函数，但有虚拟析构函数

如果我们没有虚拟构造函数那么为什么我们有虚拟析构函数构造函数也可以是虚拟的吗虚拟构造函数没有意义你确切地声明了什么类型被创建并且在编译时是众所周知的编译器不需要并且实际上不能因为动态调度是基于仅在创建对象后才创建的信息
如何配置 Maven 2 的 Surefire 插件来运行 Junit 4.5？

Maven 2 似乎没有考虑我的 Test 和 Ignore 注释如何配置 Surefire 插件来运行和使用注释这个问题还没有答案我首先将您的主 POM 配置为默认将 Surefire 插件设置为最新版本这是通过向 POM 的插件
表中的错误（数据，引用，dnn = dnn，...）：在 R 中运行带有插入符号的混淆矩阵时，所有参数必须具有相同的长度

我在运行混淆矩阵时遇到问题这就是我所做的 rf lt caret train tested data training data method rf trControl ctrlInside metric ROC na action na
在类方法中键入“this”

我知道这可能是非常基本的但我很难理解它 class Main constructor requestAnimationFrame this update fine update void requestAnimationFrame thi
在我的布局文件中使用 CardView 和 RecyclerView 会引发异常

所以我一直在尝试 Android Preview L 的 Material Design 我导入了CardView和RecyclerView图书馆我使用的是Android Studio预览版0 8 0 安装最新的 SDK 包不过一旦我
如何将 JavaScript 倒计时与服务器时间同步[重复]

这个问题在这里已经有答案了我正在建立一个网站其时间和价格都会下降我最关心的是同步时间以便所有客户端的时间尽可能准确目前我向客户端发送剩余的毫秒数然后用于为倒计时器提供燃料但由于传输和渲染延迟即使同一台计算机上有 2 个浏览
使用 Mockito 在不接触数据库的情况下测试 Spring-Boot Repository 接口方法

我有以下测试类 RunWith SpringJUnit4ClassRunner class SpringApplicationConfiguration classes Application class public class Tran
Chromium - 媒体源扩展 - 附加：流解析失败

使用媒体源扩展 MSE 我尝试在网络浏览器上播放 mp4 流火狐上没问题在基于 chromium 的 Web 浏览器 Opera Chrome 和 Edge 上情况并非如此我有错误追加流解析失败数据大小 689append w
Jboss-eap-6.3 无法为对象堆保留足够的空间

我在 32 位 Windows 上运行 Java7 当我运行 Jboss eap 6 3 服务器时每次尝试运行该程序时都会重复出现以下异常 D mysoft jboss eap 6 3 bin gt standalone bat Call
qDebug() 不支持 Windows 上的 unicode 字符串

我有一个行编辑其中包含带有 Unicode 字符的文件名并且它在 GUI 中正确显示但是当我使用qDebug 它将 Unicode 符号显示为问号例如对于 C Test 这段代码只会显示 C Test 这行 qDebug lt l
NHibernate - 处理 StaleObjectStateException 以始终提交客户端更改 - 需要建议/推荐

我正在尝试找到处理此异常的完美方法并强制客户端更改覆盖导致冲突的任何其他更改我想出的方法是将调用包装到Session Transaction Commit 在循环中在循环内部我将执行一个 try catch 块并通过复制其属性行
url 中额外的点分隔符

网站如何在其网址中实现额外的点来指向不同的资源 eg trecoolable wordpress com 如果我希望不同的用户在我拥有一个域名时拥有自己唯一的 url 我该如何实现这一点呢这称为子域您可以在您的域名区域中进行设置也称为
Java 中 hashCode 和 equals 方法中的异常是否允许并可接受？

一些类由框架如 bean 填充所以你不能保证所有字段都已设置查看示例标记为的类 Entity通常有Integer id field hashCode可以写成 public int hashCode return id hashCod
在 Visual Studio 中为外部库启用 javascript 智能感知

我更新了 Scripts references js with
Solr/Lucene 中按日期排序的性能问题

我们建立了一个包含 3600 万个文档每个约 1K 2K 的 Solr 索引并且我们尝试查询最多 100 个与单个简单关键字匹配的文档正如我们所希望的那样这工作得非常快但是如果我们现在将 sort createDate desc

Solr/Lucene 中按日期排序的性能问题

Solr/Lucene 中按日期排序的性能问题 的相关文章

随机推荐

热门标签

Solr/Lucene 中按日期排序的性能问题的相关文章