我在 Stack Overflow 上发表的第一篇文章,请温柔一点!我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎,该引擎将索引大约 2,000 个文档,这些文档是 PDF、Word、Excel 和 HTML 的混合体。
我曾希望使用thinking-sphinx或Texticle(最流行的https://www.ruby-toolbox.com/categories/rails_search.html https://www.ruby-toolbox.com/categories/rails_search.html)但据我了解:
- Textile 需要 PostgreSQL。我在MySQL上。
- Thinking-sphinx 不会在文件系统上索引文件。
- 即使我将附件保存到数据库中,thinking-sphinx 仍然无法工作,因为它需要纯文本(根据http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff)
所以我有两个选择:
- 选择不同的搜索工具
- 尝试将附件的纯文本版本提取到数据库中以供thinking-sphinx读取
您推荐哪种方法?
如果是不同的搜索工具,是哪一个?我的要求非常基本,所以我真的很想要一个非常容易设置并且有大量文档、示例和教程的工具!
如果是提取,您能推荐常见文件类型(例如 PDF、Word、Excel 和 HTML)的提取器吗?
感谢大家。非常感谢您的帮助。
好吧,我以前没有做过二进制文件索引,但显然 Solr 支持它,请参阅使用 SPHINX/ultrasphinx 索引文件 https://stackoverflow.com/questions/5389267/indexing-files-with-sphinx-ultrasphinx and
http://wiki.apache.org/solr/ExtractingRequestHandler http://wiki.apache.org/solr/ExtractingRequestHandlerSolr 有很多可用的 gem,Sunspot 似乎是一个流行的http://outoftime.github.com/sunspot/ http://outoftime.github.com/sunspot/尽管 Sunspot 似乎没有内置对 Solr Cells 的支持,但似乎还有一些工作要做https://github.com/tomasc/sunspot_cell https://github.com/tomasc/sunspot_cell可能有更好的选择,但这应该为您提供一个良好的起点。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)