我打算做一个利基搜索引擎。我使用 apache-nutch-1.6 作为爬虫,使用 apache-solr-3.6.2 作为搜索器。我必须说,网络上有关这些技术的更新信息非常少。
我按照这个教程http://wiki.apache.org/nutch/NutchTutorial http://wiki.apache.org/nutch/NutchTutorial并已在我的 ubuntu 系统上成功安装 apache 和 solr。我还成功地将种子 url 注入到 webdb 并执行爬网。
Using solr interface at http://localhost:8983/solr/admin
, I can also query the crawled results. But this is the output I receive. .
Am I missing something here, the earlier apache-nutch-0.7 had a war which generated a clear html output like this. . How do I achieve this... Or if anyone could point me to a latest tutorial or guidebook, highly appreciated.
有几件事:
- 如果您刚刚开始,请不要使用 Solr 3.6,直接使用最新的 4.1+。许多事情发生了变化,并添加了许多新功能。
- 您似乎是在说您将直接将 Solr + UI 暴露给一般 Web - 这是一个非常糟糕的主意,因为 Solr 完全不安全并且允许基于 Web 的删除查询。您确实需要中间有一个业务层。
- Solr 4.1 有一个漂亮的管理 UI,还有一个 /browse 页面,显示如何使用 Velocity 来执行 Solr 支持的页面。或者看看类似的东西黑光计划 http://projectblacklight.org/有关如何通过 Solr 获取 UI 的示例。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)