我正在寻找将丰富类型文档(Pdf、Doc、rtf、txt)索引到 Solr 中。我找到了 Tika 作为解决方案。我在网上咆哮,但没有找到任何文档/链接来使其与 ExtractingRequestHandler 一起使用。
任何人都可以提供通过提取 RequestHandler 配置 Tikka 的分步方法。
提前致谢 :)
Check 提取RequestHandler http://wiki.apache.org/solr/ExtractingRequestHandler用于 Solr 与 Tika 的集成。
Solr 内置了 tika.config,除非覆盖配置,否则不需要定义它。
您可以使用 solrconfig.xml 中定义的默认配置
<!-- Solr Cell Update Request Handler
http://wiki.apache.org/solr/ExtractingRequestHandler
-->
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<!-- capture link hrefs but ignore div attributes -->
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>
</requestHandler>
您可以使用命令将文件与附加元数据索引到 solr。
curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "[email protected] /cdn-cgi/l/email-protection"
默认情况下,文件的内容将复制到内容字段并复制到文本,您可以覆盖设置。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)