是否有任何针对大型数据集上 Lucene/Solr 性能基准的链接/资源。 500GB~5TB以上范围的数据集
Thanks
Lucene 提交者 Mike McCandless 运行基准 http://people.apache.org/~mikemccand/lucenebench/定期跟踪性能改进和回归。它们是根据维基百科导出内容制作的,可能比您要查找的内容小一点。
但性能并不那么依赖于输入大小,而是依赖于文档和独特术语的数量。如果您已经拥有一些与需要索引的数据类似的数据,我建议您查看迈克的测试工具 http://code.google.com/a/apache-extras.org/p/luceneutil/source/browse/nightlyBench.py,根据您的需求进行调整,并使用您自己的数据集和硬件运行它,以尝试找出您可以期望的性能数据。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)