Lucene - 这是巨大索引的正确答案吗？

2024-01-02

Lucene 是否能够索引每个 50K 的 500M 文本文档？

对于单个术语搜索和 10 个术语搜索，此类索引的预期性能如何？

我应该担心并直接转移到分布式索引环境吗？

Saar

是的，Lucene 应该能够处理这个问题，根据以下文章：http://www.lucidimagination.com/content/scaling-lucene-and-solr https://web.archive.org/web/20110704015502/http://www.lucidimagination.com/content/scaling-lucene-and-solr

这是一个引用：

根据多种因素，一台机器可以轻松托管 5 – 80+ 百万个文档的 Lucene/Solr 索引，而分布式解决方案可以在数十亿个文档中提供亚秒级搜索响应时间。

本文深入探讨了扩展到多个服务器的问题。因此，您可以从小处开始，然后根据需要进行扩展。

关于 Lucene 性能的一个很好的资源是 Mike McCandless 的博客，他积极参与 Lucene 的开发：http://blog.mikemccandless.com/ http://blog.mikemccandless.com/他经常使用 Wikipedia 的内容 (25 GB) 作为 Lucene 的测试输入。

另外，有趣的是 Twitter 的实时搜索现在是使用 Lucene 实现的（请参阅http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html).

但是，我想知道您提供的数字是否正确：5 亿个文档 x 50 KB = ~23 TB - 您真的有那么多数据吗？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Lucene

Lucene - 这是巨大索引的正确答案吗？的相关文章

ASP.NET MVC 站点中使用 Lucene.Net 时出现目录锁定错误

我正在构建一个 ASP NET MVC 站点我想在其中使用 Lucene Net 进行搜索我已经构建了一个 SearchController 及其所有方法但在首次初始化 SearchController 时出现运行时错误在 Sear
如何读取lucene 5.5.5索引？

哪个版本的Luke可以读取5 5 5 lucene的索引我尝试过 Luke 4 10 5 2 5 5 7 2 但总是得到这个 Invalid directory at the location check console for more
Lucene 的 Ruby 替代品

我经常听说 Lucene 它是 Java 中最好的搜索引擎库之一 Ruby 有类似同样强大的库吗嗯有Ferret http ferret davebalmain com trac 这是 Lucene 到 Ruby 的端口此外 Lu
在 Lucene 中正确索引纬度和经度值

我正在使用 Lucene API 开发给定半径内基于美国的最近城市搜索功能我在 Lucene 中索引城市的纬度和经度值如下所示 doc Add new Field latitude paddedLatitude Field Sto
用于索引和搜索的 Lucene 分析器

我有一个正在使用 Lucene 建立索引的字段如下所示 Field name hungerState index Index TOKENIZED store Store YES public HungerState getHungerSt
symfony 中的 Doctrine 可搜索行为与 Zend Lucene

我需要在2个表中搜索关键字简单的事情我尚未决定使用其中之一吗有什么建议吗 Thanks 正如 cuhuak 提到的 Lucene 是全文搜索由于它是用 Java 编写的因此您还需要一个 Java 服务器例如 Tomcat 如果您
如何指示Lucene中的StandardAnalyzer不删除停用词？

简单问题如何制作Lucene的StandardAnalyzer在分析我的句子时不要删除停用词答案取决于版本为了Lucene 3 0 3 当前 http lucene apache org java 3 0 3 api core org
为什么路由不能与 ElasticSearch Bulk API 一起使用？

我正在向 ElasticSearch 设置批量请求并指定要路由到的分片但是当我运行它时文档会被发送到不同的分片这是 ElasticSearch 批量中的错误吗当我只索引单个文档时它就有效当我搜索时它有效但当我进行批量导入时则不然
lucene：如何添加不重复的文档

就我而言插入 lucene 索引的每个文档都有其唯一的 ID 当向lucene索引添加新文档时如果该文档已经存在于索引中则不应将该文档插入到索引中如何实施这一战略我想我应该先用docId搜索文档如果lucene找不到该文档那么
LUCENE：搜索与正则表达式匹配的术语

我需要搜索 lucene 索引中的任何术语匹配特定的正则表达式我知道我可以使用TermsComponent在solr中如果配置如下
Lucene 3 上的“令牌”列表

我是 Lucene 的新手我开始学习版本 3 分支但有一件事我不明白显然是因为我在该主题上没有经验在 Lucene 2 9 中如果我想要一个令牌列表我会创建一个 Token 类的 ArrayList 例如 ArrayList 这
Solr 中的多值字段排序

我有一个 Solr 索引将每个产品的价格存储在多值字段中我需要按价格对结果集进行排序其中价格从低到高从高到低我尝试对价格进行排序它显示错误您无法对 multivalued True 字段进行排序下面是我的 solr XML
对 solr 搜索结果进行排序。给出错误无法对多值字段进行排序：名称

我对 Apache Solr 搜索比较陌生我正在尝试对 Solr 查询中的结果集进行排序查询名称 abc AND 隐藏 false sort name desc 它显示错误无法对多值字段进行排序名称 Solr版本是 7 2 1 如
随着索引和文档数量恒定，elasticsearch 批量索引会随着时间的推移而变慢

我遇到了使用 NET NEST 客户端和 ElasticSearch 进行批量索引的性能随着时间的推移索引数量和文档数量恒定而降低的情况我们正在奔跑ElasticSearch Version 0 19 11 JVM 23 5 b02在具
Lucene外来字符问题

我在使用 Zend Lucene 和等外来字符时遇到了一些严重的问题这些问题在创建索引和查询索引时都会出现我已经尝试过 iso 8859 1 和 utf 8 ISO 8859 1 不起作用的查询看起来像 area sk ne 使用 Z
Lucene 评分：在什么情况下使用 queryNorm？

我对 lucene 的评分策略有点困惑我知道Lucene的评分公式是这样的 score q d coord q d x queryNorm q X SUM
Solr 过滤查询 - 字符串与整数

假设我正在尝试查询一堆具有类别的文档并且我想将查询限制为指定的类别据我所知这只是使用 fq 参数过滤器查询我想知道将参数设置为整数而不是字符串或数据通常的情况是否会提高性能我只是会在右侧犯错但我想我应该仔细检查一下以防万一
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
我们可以同时使用拼音标记和同义词吗？

我正在尝试同时启用语音分析器和同义词这似乎不起作用它们一起使用有错吗在下面的实现中我希望使用同义词转换搜索查询然后使用语音分析器来检索结果但我的同义词在这里完全被忽略了如果我在创建索引时删除语音分析器那么同义词就可以正常工作
Lucene，索引已经/外部标记化的标记并定义自己的分析过程

在使用Lucene的过程中我有点失望我不明白或不明白我应该如何继续为任何 Lucene 分析器提供已经可直接索引的东西或者我应该如何继续创建我自己的分析器例如如果我有一个List

随机推荐

如何在android中的videoview中播放.mp4视频？

我正在开发视频播放器应用程序我想播放 mp4本机视频视图中的视频我无法使用 URL 播放视频我收到错误抱歉这部影片无法播放而且我也无法在本机视频视图中播放下载的视频我在视频视图中播放视频的代码 String mUrl http
检测视频是否应用了“faststart”

在 MP4 上运行 qt faststart 时您实际上是从后面获取元数据并将其放在文件的前面就我而言 Flash 可以在视频完全加载之前正确开始播放视频我有大量视频我正在通过 shell 脚本运行并连夜进行编码然而当我上传时
创建日历以在 Jasper 服务器中选择日期（和时间）

在此输入图像描述 https i stack imgur com w0sgy png jtsnr 来自 jasper 服务器的快照我在文本框 Dateto 外部单击然后显示日历但如前面的示例所示框外没有日历图标此外文本框接受输入
unity 2D 玩家运动参数不存在

我已经成功制作了一个自上而下的射击游戏现在我正在研究动画我已经遵循了 Pixelnest io 的几个教程但奇怪的是我收到一个错误说参数 moveRight 不存在 unity 中的动画对我来说是全新的并且一直在尝试尽可能多地
NestedScrollview 中的 RecyclerView 替代品

我有一个具有此层次结构的布局有时我需要更新我的 recyclerview 元素但它冻结了主线程我猜是因为滚动视图需要再次测量它我真的很想知道我应该怎么做用layoutinflater 替换recyclerview Recycler
从ios本机代码访问AsyncStorage中存储的数据（目标c）

我需要从 iOS 本机 Objective C 代码访问存储在 AsyncStorage 中的数据这是需要同步数据的而不是将 App 事件发送到 JS 然后将其发送回本机代码我刚刚遇到了同样的问题我的解决方案是将代码移至本机侧 On
为什么不按照词法封闭的“define”来实现“let”？

我已经使用 lisp 家族语言工作了好几年感觉我对它们有了很好的掌握我现在正在编写自己的 lisp 当然这是一种时尚但几乎完全避免重新实现 Scheme Common Lisp 和朋友使用过的相同模式我总是觉得奇怪的一件事是所有的
来自数据库的之间的 PHP eval() 代码

我希望能够将 PHP 放入数据库并运行它我必须这样做因为我将页面布局存储在数据库中并且每个页面布局彼此不同但是在某些情况下我想对某些页面使用动态内容 Assume query from db是从数据库返回的字符串 PHP 应该只
NDIS 和微型端口驱动程序

我正在尝试使用 Visual Studio 2012 中提供的 WDK 工具修改以太网驱动程序 WDK 中提供的示例包括微型端口适配器和 NDIS 轻量级过滤器等我仍处于驱动程序编写的最初阶段因此发现很难浏览代码在 Visual
C++11 中的常量表达式中是否允许使用逗号运算符？

在回答的过程中这个问题关于SO https stackoverflow com questions 16563114 are these null pointers or are they pointers to address 0 165
使用端口 1433 的 Azure 输入端点被阻止？

我正在运行一个 Windows Azure 辅助角色该角色在端口 1433 上公开 WCF 服务该端口也被定义为输入 TCP 端点
自 SonarQube 5.2 起，批处理端不再支持任务

我安装 SonarQube 5 2 和 Sonar runner 2 4 最新版本我设法启动 SonarQube 但在尝试运行 Sonar runner 时出现以下错误 ERROR Unable to execute Sonar ERRO
在devise 2.0中使用omniauth从facebook获取用户个人资料大图片

我想从 Facebook 获取用户个人资料大图或普通图片现在我使用以下代码从用户个人资料图片中获取方形版本 image gt access token info image http graph facebook com id pictu
返回布尔值的 Java 方法的命名约定

我喜欢在其他语言中的方法函数名称末尾使用问号 Java 不允许我这样做作为解决方法我还能如何在 Java 中命名返回布尔值的方法使用is has should can在某些情况下在方法前面听起来不错有没有更好的方法来命名这些方法
如何在 PostgresQL 10 中备份分区表

是否可以使用 PostgreSQL 10 备份特定分区表使用时 sudo pg dump Fc f home schema backup t schema partitioned table dbname 我只得到基表的骨架没有任何值
锁分割与锁条带化

以下是 Joshua 的 Effective Java 的摘录如果您确实在内部同步您的类您可以使用各种实现高并发的技术如锁分割锁条带化和非阻塞并发控制上面表明锁分割和锁条带是两种不同的技术但是当我试图找出它们之间的区别时我
如何将 Django 应用程序部署到 (AWS) 域名？

我只使用 Django 几个星期刚刚学习了部署我有一个 AWS EC2 实例我可以将我的 Django 网站应用程序部署到其中即如果我在浏览器中访问 IP 地址我就可以访问我的网站但是我不知道如何将同一个网站部署到我在 A
std::initializer_list{x, y, z} (CTAD) 有效吗？

当构建一个std initializer list u 明确地模板参数 U 被推导例如使用类模板参数推导 CTAD 换句话说我知道以下陈述是有效的 std initializer list u
Rails 资产管道：将资产包含在公共文件夹而不是资产文件夹中是否是一个好习惯？

我一直在努力将 Google Analytics 添加到我的 Rails 4 应用程序中请参阅这个帖子 https stackoverflow com q 31428864 5086345 我通过在新文件中添加 Google 提供的 Ja
Lucene - 这是巨大索引的正确答案吗？

Lucene 是否能够索引每个 50K 的 500M 文本文档对于单个术语搜索和 10 个术语搜索此类索引的预期性能如何我应该担心并直接转移到分布式索引环境吗 Saar 是的 Lucene 应该能够处理这个问题根据以下文章 http

Lucene - 这是巨大索引的正确答案吗？

Lucene - 这是巨大索引的正确答案吗？ 的相关文章

随机推荐

热门标签

Lucene - 这是巨大索引的正确答案吗？的相关文章