有一个 PDF 文档,其中包含 Tika 不应提取的附件(此处为:joboptions)。内容不应发送到 Solr。有没有办法在 Tika 配置中排除某些(或全部)PDF 附件?
@gagravarr,我们通过以下方式改变了这种行为蒂卡-2096,蒂卡1.15。现在默认设置为“提取所有嵌入文档”。为了避免解析嵌入文档,请调用:
parseContext.set(Parser.class, new EmptyParser())
或者子类EmbeddedDocumentExtractor
不执行任何操作并通过ParseContext
.
如果您使用 Solr DIHTikaEntityProcessor
,我设置extractEmbedded
to false
,但你不是;请不要。 :)
因此,我认为没有一种简单的方法可以关闭仅针对 PDF 的嵌入文档的解析,而且我不确定您是否愿意这样做。例如,如果 PDF 中附加了 MSWord 文件怎么办?
如果你想忽略.joboptions
,你可以使用自定义EmbeddedDocumentExtractor
.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)