我正在构建一个 Web 应用程序,用户可以在其中搜索 pdf 文档并使用 pdf.js 查看它们。我想显示搜索结果,其中包含找到搜索词的段落的简短片段以及用于在右侧页面打开文档的链接。
所以我需要的是每个搜索结果的页码和简短的文本片段。
我正在使用 SOLR 4.1 来索引 pdf 文档。索引本身工作正常,但我不知道如何获取搜索结果的页码和段落。
我在这里找到了这个”使用 Solr 用页码索引 PDF https://stackoverflow.com/questions/4094269/indexing-pdf-with-page-numbers-with-solr“但这并没有真正的帮助。
我现在正在拆分 PDF 并将每个页面分别发送到 SOLR。
所以每个页面都是一个带有 id 的自己的文档<id_of_document>_<page_number>
和一个附加字段 doc_id,其中仅包含<id_of_document>
用于对结果进行分组。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)