Lucene 是否能够索引每个 50K 的 500M 文本文档?
对于单个术语搜索和 10 个术语搜索,此类索引的预期性能如何?
我应该担心并直接转移到分布式索引环境吗?
Saar
是的,Lucene 应该能够处理这个问题,根据以下文章:http://www.lucidimagination.com/content/scaling-lucene-and-solr https://web.archive.org/web/20110704015502/http://www.lucidimagination.com/content/scaling-lucene-and-solr
这是一个引用:
根据多种因素,一台机器可以轻松托管 5 – 80+ 百万个文档的 Lucene/Solr 索引,而分布式解决方案可以在数十亿个文档中提供亚秒级搜索响应时间。
本文深入探讨了扩展到多个服务器的问题。因此,您可以从小处开始,然后根据需要进行扩展。
关于 Lucene 性能的一个很好的资源是 Mike McCandless 的博客,他积极参与 Lucene 的开发:http://blog.mikemccandless.com/ http://blog.mikemccandless.com/他经常使用 Wikipedia 的内容 (25 GB) 作为 Lucene 的测试输入。
另外,有趣的是 Twitter 的实时搜索现在是使用 Lucene 实现的(请参阅http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html).
但是,我想知道您提供的数字是否正确:5 亿个文档 x 50 KB = ~23 TB - 您真的有那么多数据吗?
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)