在solr中获取pdf搜索结果的页码

2024-05-03

我正在构建一个 Web 应用程序，用户可以在其中搜索 pdf 文档并使用 pdf.js 查看它们。我想显示搜索结果，其中包含找到搜索词的段落的简短片段以及用于在右侧页面打开文档的链接。

所以我需要的是每个搜索结果的页码和简短的文本片段。

我正在使用 SOLR 4.1 来索引 pdf 文档。索引本身工作正常，但我不知道如何获取搜索结果的页码和段落。

我在这里找到了这个”使用 Solr 用页码索引 PDF https://stackoverflow.com/questions/4094269/indexing-pdf-with-page-numbers-with-solr“但这并没有真正的帮助。

我现在正在拆分 PDF 并将每个页面分别发送到 SOLR。所以每个页面都是一个带有 id 的自己的文档<id_of_document>_<page_number>和一个附加字段 doc_id，其中仅包含<id_of_document>用于对结果进行分组。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pdf

Solr

fulltextsearch

apachetika

solrcell

在solr中获取pdf搜索结果的页码的相关文章

如何在 ionic 应用程序中显示 pdf 文件而无需下载

我所做的事情在应用程序浏览器中使用使用谷歌文档使用的网页视图所以我尝试了所有这些方法来使用 ionic 在 Android 设备中显示 pdf 文件但没有用我可以在所有这些方法中看到下载按钮谁能告诉我如何在没有用户下载选项的情
Python PIL 由于某种原因无法打开 PDF

所以我的程序能够打开 PNG 但不能打开 PDF 所以我这样做只是为了测试但它仍然无法打开甚至是一个简单的 PDF 我不知道为什么 from PIL import Image with Image open r Adams K a pd
如何使用 Ansible when 条件在文件中搜索字符串

我有一个变量中用 n 分隔的搜索字符串列表listofips 我想在文件中搜索该字符串hello csv在我的下面playbook dir 我可能遇到一些语法问题我不确定但下面是我尝试过的 set fact listofips 10 0
在 ionic 中从 Base64 打开 pdf

因此我将 Jasper 报告转换为 pdf 然后在 REST 控制器中转换为 base64 我该如何将其传输到我的 ionic 3 应用程序我研究了 Ionic Native Document Viewer 但为了做到这一点我需要将文
使用 TCPDF PHP 库横向显示的图像

我正在使用 TCPDF PHP 库生成包含照片的 PDF 文档由于某种原因某些照片在我的计算机和网络上正确显示但当我将该图像放入 PDF 中时它似乎是横向的这只发生在某些图像上大多数图像显示正确下面是在 PDF 中横向显示的示
将 PDF 转换为 JPG 时质量低

我正在尝试使用 Imagemagic RMAgick 将 PDF 文档转换为图像原始 PDF 也是从图像创建的不是原生矢量 PDF image Magick Image from blob original pdf self forma
如何使用 iTextSharp 设置 PDF 段落或字体行高？

如何使用 iTextSharp 更改 PDF 字体或段落的行高排版中的行距称为行距如果可以使用行间距则可以使用 Paragraph Leading 或 Paragraph LeadingMultiplier 看http itextsh
Solr PatternReplaceCharFilterFactory 未替换为指定模式

所以我对 Solr 很陌生但我尝试使用 PatternReplaceCharFilterFactory 对将存储的电话号码字符串进行一些预处理这是该字段的配置
C# 3.0 使用MemoryStream将itextsharp pdf保存到数据库

我正在尝试将 itextsharp 生成的 pdf 文件保存到数据库但是到目前为止我还没有成功我正在使用 Linq to sql 这是代码 MemoryStream ms new MemoryStream Document d new
如何以编程方式生成在图像顶部带有标签的维恩图图像？

我正在尝试为 pdf 报告生成维恩图其中文本位于不同区域的顶部我们使用 htmldoc 生成 pdf 这会排除背景图像之上的文本我们使用谷歌图表 API 来处理其他图像但他们的维恩图不支持图表顶部的文本据我所知最简单的路径是使用
Zend 框架 PDF 问题

又是我伙计们我有一个小问题 Create new PDF pdf new Zend Pdf Add new page to the document page pdf gt newPage Zend Pdf Page SIZE A4 p
元素数组中数组的 MongoDB 全文

当元素数组中的数组包含应与我的搜索匹配的文本时我无法检索文档以下是两个示例文档 id foo name Thing1 data text X X name Thing2 data text X Y id foo
Rails 4 - 如何链接到 PDF 文件（名称.PDF）？

我正在生成 PDF 文件我的链接如下所示当我点击这个时它会带我去 display invoice 123456789 这是一个 HTML 版本在控制器中的操作如下 def display invoice if params invo
如何将 Solarium 配置为使用 POST 而不是 GET 请求

我面临的问题是我们发送到 solr jetty 的 uri 变得很长超过 9k 字节超出了 jetty 的默认限制解决方案是从 GET 请求切换到 POST 请求因为我们不想增加 jetty 可以接受的 requestHeaderS
PDF Tj 命令带有尖括号？

我试图弄清楚在哪里未压缩的PDF v1 4 文档使用 Times 字体 The Font描述 PDF 中 Times 字体的对象是 object65如下 65 0 obj lt Font Subtype TrueType BaseFont
LibreOffice 并行将 .docx 转换为 .pdf 效果不佳

我有很多 docx 文件需要转换为 pdf 将它们一一转换需要很长时间所以我编写了一个 python 脚本来并行转换它们 from subprocess import Popen import time import os os chdi
直接将 .aspx 转换为 .pdf [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
由于未定义符号，PECL solr 未加载：curl_easy_getinfo

我正在尝试加载 PECL solr 扩展我尝试使用 pecl install solr 并下载并使用 phpize configure make 来安装它在这两种情况下扩展安装时都没有错误但在 apache 重新启动后或在命令行上
使用 JavaScript 生成 PDF 文件

我正在尝试将 XML 数据从网页转换为 PDF 文件并且希望能够完全在 JavaScript 中完成此操作我需要能够绘制文本图像和简单的形状我希望能够完全在浏览器中完成此操作我刚刚写了一个名为jsPDF https github
是否有一个 C++ 库可以从 PDF 文件中提取文本，例如 PDFBox for Java？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案去年我使用 PDFBox 在 Java 中创建了一个应用程序来获取某些 PDF 文件中的原始文本现在

随机推荐

onCreateOptionsMenu(菜单菜单)是什么

方法中的Menu和menu两个参数是什么onCreateOptionsMenu Menu menu 以及如何使用这个方法我还有一个问题为什么this参数用于 Intent intent new Intent this DisplayMes
尝试利用？

我看到我的 nopCommerce 网站记录了以下搜索 ADw script AD4 alert 202 ADw script AD4 我有点好奇他们想要完成什么我搜索了一下似乎是ADw script AD4 以 UTF7 编码为
C# 中的异步方法如何工作？

我在我的一些项目中使用异步方法我喜欢它因为它使我的应用程序更具可扩展性但是我想知道异步方法如何在后台真正工作 NET 或 Windows 如何知道调用已完成根据我进行的异步调用的数量我可以看到创建了新线程但并不总是为什么此
(jQuery) 在 cookie 中单击时保存复选框状态

关于此功能有很多主题但我似乎无法让它工作我在谷歌上搜索了这个具体案例有一堆链接让我来到这里但奇怪的是我似乎无法让它们工作我所做的唯一工作如下 http dl dropbox com u 2238080 a old z htm ht
Clang 使用 -nostdlib 生成崩溃代码

我正在尝试为可执行文件设置自己的运行时环境但无法使用 clang v3 4 1ubuntu1 目标 x86 64 pc linux gnu 来生成没有段错误的可执行文件我已将问题简化为以下内容如果我有一个文件 crt1 c 除了满足
Laravel 4：Facades 是如何解决的？

我有点想看看 Laravel 4 发生了什么facades在引擎盖下我们以这个 Facade 为例 File get someArgs 如果我没有记错的话逐步过于简化的调用将是 static method invocation wh
反应本机文本输入焦点

我的应用程序中有一个表单我希望用户能够通过单击下一步返回按钮转到下一个 TextInput 我的输入组件 export default class Input extends Component focusNextField next
Spark数据框中过滤的多个条件

我有一个包含四个字段的数据框其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件我尝试了以下查询但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
Java中使用final关键字会提高性能吗？

在 Java 中我们看到很多地方final可以使用关键字但其使用并不常见例如 String str abc System out println str 在上述情况下 str can be final但这通常被忽略当一个方法永远不会
使用注释式 Resilience4j 测试 SpringBoot

我正在使用注释式 Resilience4j春季启动应用程序 https github com SidekickJohn demo称为演示通过 RestTemplate 调用外部后端时我想使用 TimeLimiter 和 Retry 来
如何使用 Fabrication 定义特质

我正在学习如何使用制造 http www fabricationgem org getting started in Rails我们决定更换所有factory girl代码与制造假设我们有这段代码factory girl FactoryG
修改void函数的输入参数并随后读取它

我有一个相当复杂的 java 函数我想使用 jUnit 进行测试并且我正在使用 Mockito 来实现此目的这个函数看起来像这样 public void myFunction Object parameter doStuff conv
为什么这个 SimpleDateFormat 无法解析这个日期字符串？

简单日期格式 SimpleDateFormat pdf new SimpleDateFormat MM dd yyyy hh mm ss SSSaa 抛出的异常pdf parse Mar 30 2010 5 27 40 140PM java
添加 X 轴标题会导致 Uncaught RangeError:minimumFractionDigits value is out of range in Chart.js

我正在尝试向 Chart js 图表的 X 轴添加标题但是当我将标题属性放在 x 轴上时出现错误 Uncaught RangeError minimumFractionDigits value is out of range 但它并没有
使用 Handlebars.js 迭代基本的“for”循环

我是 Handlebars js 的新手刚刚开始使用它大多数示例都基于对象的迭代我想知道如何在基本 for 循环中使用车把 Example for i 0 i lt 100 i create li s with i as the va
Android - 向 Android 的内置应用程序添加菜单项

我想在联系人菜单中添加按钮或菜单项是否可以我使用 Android 2 2 和 Eclipse 3 6 1 不可以内置 Android 应用程序不支持菜单中的意图选项即您无法向其中添加任何内容
全局键盘挂钩的合法用途是什么？

除了仅应由操作系统提供的应用程序启动快捷方式之外 Windows 键盘挂钩等东西的合法用途是什么在我看来我们只在键盘记录器之类的事情上遇到问题因为操作系统提供了钩子来执行除操作系统内核本身之外的任何情况下任何人都不允许执行的操作编辑
如何在运行时更改 JList 的单元格图标

如何更改仅一个 JList 单元格的 JLabel 图标例如在 JList 中单击我尝试访问使用 listCellRender 获取的 JLabel 但它不起作用 Override public void valueChanged L
当用户点击弹出窗口外部时，阻止 JQuery Mobile 关闭弹出窗口

我正在使用 JQuery Mobile 1 2 0 alpha 1 目前当我打开弹出窗口并点击屏幕上任意位置的外部时弹出窗口将被关闭我想知道是否有任何我错过的 JQuery Mobile 属性可以设置并防止在外部点击时关闭弹出窗口模
在solr中获取pdf搜索结果的页码

我正在构建一个 Web 应用程序用户可以在其中搜索 pdf 文档并使用 pdf js 查看它们我想显示搜索结果其中包含找到搜索词的段落的简短片段以及用于在右侧页面打开文档的链接所以我需要的是每个搜索结果的页码和简短的文本片段我正在

在solr中获取pdf搜索结果的页码

在solr中获取pdf搜索结果的页码 的相关文章

随机推荐

热门标签

在solr中获取pdf搜索结果的页码的相关文章