索引多个文档并映射到唯一的 solr id

2024-03-14

我的用例是将 2 个文件索引：元数据文件和二进制 PDF 文件到唯一的 solr id。元数据文件具有 XML 文件形式的内容，某些架构字段映射到该 XML 文件中的元素。

我的工作：从 PDF 文件中提取内容（使用 pdftotext），处理该内容并检索特定信息（例如：PDF 的第一页/行包含有关药物、研究阶段的信息）。检索到的信息（医学/研究阶段）需要建立索引，并且应该能够搜索/排序/方面。

我可以创建一个包含检索到的信息的 XML 文件（我们将其称为元数据文件）。现在假设我的架构是

<field name="medicine" type="text" stored="true" indexed="true"/>
<field name="researchStage". ../>

有没有办法把这个元数据文件和PDF文件放在Solr中？

我尝试过的：

根据档案中的建议，我压缩了这些文件并提供给 ExtractRequestHandler。我能够将所有内容放入 SOLR 中并使其可搜索。但它显示为 zip 文件的内容。（我必须对 Solr 代码库应用一些补丁才能使其工作）。但这还不够，因为元数据文件中的内容未映射到字段名称。卷曲“http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true”-F“[电子邮件受保护] /cdn-cgi/l/email-protection"
我尝试使用 DataImportHandler(binURLdatasource)。但我认为我不明白它是如何工作的。所以不能走远。
我想到向 PDF 本身添加元数据标签。为此，ExtractrequestHandler 应该处理此元数据。我也不确定。所以我尝试“pdftk”来添加元数据。无法为其添加自定义标签。它只更新/添加标题/作者/关键字等。有谁知道类似的unix工具。

如果有人有提示，请分享。我想避免创建 1 个文件（通过合并 PDF 文本 + 元数据文件）。

给定一个文件record1234.pdf和元数据，例如：

<metadata>
<field1>value1</field1>
<field2>value2</field2>
<field3>value3</field3>
</metadata>

执行相当于以下的编程操作

curl "http://localhost:8983/solr/update/extract?
literal.id=record1234.pdf
&literal.field1=value1
&literal.field2=value2
&literal.field3=value3
&captureAttr=true&defaultField=text&capture=div&fmap.div=foo_txt&boost.foo_txt=3&"  -F "[email protected] /cdn-cgi/l/email-protection"

改编自http://wiki.apache.org/solr/ExtractingRequestHandler#Literals http://wiki.apache.org/solr/ExtractingRequestHandler#Literals .

这将在索引中创建一个新条目，其中包含textTika/Solr CEL 的输出以及您指定的字段。

您应该能够用您喜欢的语言执行这些操作。

元数据文件中的内容未映射到字段名称

如果它们未映射到预定义字段，则使用动态字段。例如您可以设置一个*_i是一个整数字段。

我想避免创建 1 个文件（通过合并 PDF 文本 + 元数据文件）。

这看起来像是程序员疲劳:-) 但是，你有充分的理由吗？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pdf

Solr

索引多个文档并映射到唯一的 solr id 的相关文章

Solr MoreLikeThis 不适用于多个分片？

我在 SolrCloud 中有 5 个节点集群每个节点有 2 个分片 Solr版本 6 3 0 现在当我运行 mlt 查询时它仅返回每个节点的结果并且不会将它们分布在所有分片节点上即没有给出任何结果给出结果我什至尝试将其指
使用 html2canvas 将 highcharts 图表渲染为 pdf 在 IE 和 Firefox 上不起作用

我们使用 html2canvas js 和 html2canvas svg js 版本 0 5 0 beta1 以及 highcharts js 将圆环图下载为 pdf 这在 Chrome 中按预期工作但在 IE 和 Firefox 中不
Solr 过滤查询 - 字符串与整数

假设我正在尝试查询一堆具有类别的文档并且我想将查询限制为指定的类别据我所知这只是使用 fq 参数过滤器查询我想知道将参数设置为整数而不是字符串或数据通常的情况是否会提高性能我只是会在右侧犯错但我想我应该仔细检查一下以防万一
粘合（拼版）PDF 文档

我有几个 A4 PDF 文档我想将它们二合一粘合在一起成为 A3 格式的 PDF 文档所以我将从 2PDFs 中得到A4单面 PDFA3 我发现了出色的实用性PDF工具包 http www pdfhacks com pdftk 和
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
如何在 ionic 应用程序中显示 pdf 文件而无需下载

我所做的事情在应用程序浏览器中使用使用谷歌文档使用的网页视图所以我尝试了所有这些方法来使用 ionic 在 Android 设备中显示 pdf 文件但没有用我可以在所有这些方法中看到下载按钮谁能告诉我如何在没有用户下载选项的情
pdf文件文本阅读和搜索

我想从 pdf 文件中读取文本并将文本搜索到 pdf 文件中这是我知道的链接这些都帮不了我使用 Quartz 2D 解析 pdf 时获取文本位置 https stackoverflow com questions 3627745 ge
Solr 动态价格范围和组

跟进问题如何获取 solr 结果中的方面范围 https stackoverflow com questions 33956 how to get facet ranges in solr results SolR 查询价格范围 htt
在 solr 8 中的 fl 中使用父过滤器时获取“当架构嵌套时不应发送父过滤器”

我正在尝试使用子文档获取父文档但得到当模式嵌套时不应发送父过滤器 error 附上下面我尝试过但无法得到解决方案的查询 q parent which content type person fl child parentFilter c
Solr：在带有空格的字符串上使用通配符

我的问题与这里讨论的问题基本相同带空格的 Solr 通配符查询 https stackoverflow com questions 10023133 solr wildcard query with whitespace 但这个问题没有得
使用 Pyqt4 从 URL 下载数千个 PDF

理想情况下我试图从给定网站下载数千个 PDF 然而由于某种原因它甚至无法下载 100 个 PDF 我不知道为什么这是代码 usr bin env python import time from pyPdf import PdfFil
为什么 WebView 中的 dataWithPDFInsideRect 不能在 Mavericks 上创建高质量的 PDF？

Run 示例项目 https github com tvarghese TestWebView并观察桌面上生成的输出 PDF 名为保存网页 pdf 粘贴感兴趣的代码片段 NSURL url NSBundle mainBundle URLFo
以编程方式识别 PDF 文件中的扫描文本 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个 PDF 文件其中包含我们需要导入数据库的数据这些文件似乎是打印的字母数字文本的 pdf
cursorMark是无状态的以及它如何解决深度分页

作为指定here https cwiki apache org confluence display solr Pagination of Results光标标记是无状态的但我不明白它是如何解决无状态的深度分页问题的 solr 是否按唯一
创建仅在使用 PDFBox 打印时显示的水印（pdf 可选内容）

我遇到过许多使用 PDFBox Layer Utility 的appendFormAsLayer 方法的示例如下所示 Places the given form over the existing content of the indic
如何将 Solarium 配置为使用 POST 而不是 GET 请求

我面临的问题是我们发送到 solr jetty 的 uri 变得很长超过 9k 字节超出了 jetty 的默认限制解决方案是从 GET 请求切换到 POST 请求因为我们不想增加 jetty 可以接受的 requestHeaderS
使用 ImageMagick 和/或 GhostScript 将多页 PDF 转换为多个 JPG

我正在尝试将多页 PDF 文件转换为一堆 JPEG PDF 中的每一页一个我花了几个小时寻找如何做到这一点最终我发现我需要安装 Ghostscript 所以我就这么做了来自这个网站 http downloads ghostscript
使用 PHP 创建图表并导出为 PDF

我正在寻找有关使用 PHP 创建图表的建议我还希望能够将这些图表导出到 PDF 文档我目前正在使用谷歌图表但我不喜欢将我的所有信息发送到谷歌的想法我更喜欢自己的托管解决方案我见过很多 Flash 解决方案但我不知道有什么方法可以
使用 JavaScript 生成 PDF 文件

我正在尝试将 XML 数据从网页转换为 PDF 文件并且希望能够完全在 JavaScript 中完成此操作我需要能够绘制文本图像和简单的形状我希望能够完全在浏览器中完成此操作我刚刚写了一个名为jsPDF https github
无法使用文件提供程序从内部存储打开 PDF 以便在 Android 8 和 9 上查看

仅适用于 Android 8 和 9 我这里有一个 PDF 文件管理器 String url file storage emulated 0 Android data com verna poc files Download mypdf p

随机推荐

在 .net 5 控制台应用程序中利用用户机密

我正在构建一个简单的控制台应用程序来处理大型 CSV 文件 SDK版本5 0 202我使用的是 Manjaro Linux CODE using System using System Text using TinyCsvParser us
Android 资源限定符 -sw#dp 与 -w#dp

假设我正在为屏幕尺寸等于或大于 600dp 的设备开发不同的布局我想使用 android 3 2 后的资源限定符我创建了一个名为layout sw600dp并将我的布局放在那里但同时我可以创建一个名为的文件夹layout w600dp
查明文件是否已更改

我想查明自上次启动 shell 脚本以来文件是否已被修改也许可以通过创建布尔值或其他东西也许可以将上次运行脚本的时间保存在一个文本文件中下次启动脚本时它应该读取该文件然后它应该找出哪些文件已更改以便我可以检查是否有文件已使用以下内
Laravel 5.8 中 Pusher 连接失败

我在 laravel 5 4 中使用 Pusher 没有任何问题但现在我尝试使用 laravel 5 8 但出现以下错误我已经尝试了我能想到的一切甚至改变了encrypted to false万一我三次检查了我的推送者凭据 Lara
uifont“Impact”不适用于 iOS

我正在尝试使用 Impact ttf 它是 OSX 内置的但在 xcode 上看不到自定义字体所以我将它包含在我的项目中如屏幕所示并使用 UIFont font1 UIFont fontWithName Impact ttf size
在 iOS SDK 4.2 上构建越狱设备

我有一个通过 Cydia 分发的应用程序它没什么黑科技只是一个连接到 Web API 的 GUI 我上次提交更新是在 SDK 4 0 之前我使用了可用的说明here http thebigboss org hosting reposi
Javascript：检索对象属性名称

我正在尝试编写一个需要知道传入对象的属性名称的函数如下所示 var data key1 value1 key2 value2 etc i want the string value key1 如何从中检索字符串 key1 data 我知道
CSS 表格宽度 - 100% + 减去边距

我偶然发现了一个我不完全确定如何解决的问题我有一个包含多个 div 的页面其中一个包含一个表格但边距为 20 像素我需要这个表格对接另一个 div 的右侧这是我通过使用 20px 的边距来完成的正如我所希望的那样由于此 d
如何使用 VIM 修复 perl 语法错误“缺少右大括号或方括号”？

使用不匹配的数组大括号或范围括号编译或执行 perl 程序会导致缺少右大括号或方括号语法错误 Perl 经常将源代码报告为最后一个代码行 at EOF 这可能与实际缺失的部分相去甚远 Perl 错误消息示例 Missing rig
Robot.mouseMove 在 Mac OS X 中根本不起作用

我在 IntelliJ IDE 中使用该代码创建了 java 文件 import java awt AWTException import java awt MouseInfo import java awt Robot public cl
如何在64位Android-L平台上使用32位本机库

我有一个 Android 应用程序我用 AOSP Kitkat 编译为 Android 系统应用程序并且运行良好我的应用程序依赖于使用 Android NDK 作为 32 位库编译的本机代码我正在我的 Android 应用程序中复制
如何在 Bash 中保持 MySQL 连接打开

我有一个 bash 脚本它多次调用 MySQL 有没有办法保持连接打开而不是重新连接到 MySQL 理想情况下如果脚本提前退出连接就会关闭我认为命名管道可以工作但它们会保持打开状态这是我希望找到的一个快速伪示例 openMyS
Android：使用 viewPager 限制片段加载

我有 3 个由 FragmentPagerAdapter 管理的片段设置为 viewPager 我想一个一个加载fragment 但是当执行FragmentActivity的onCreate方法时执行的是前2个fragment onCr
Angular4模板引用变量赋值

我遇到过这个例子 https material angular io components menu examples我们可以看到
如何从 Cocoa 调用的管理员权限 bash 脚本获取输出？

我正在使用下面的代码以管理员权限启动 bash 命令我需要能够在使用它之后将输出存储在数组中我怎样才能得到输出 char command1 usr bin dscl char args1 read SharePoints Folder
Scrapy如何过滤爬取的url？

我想知道Scrapy是如何过滤那些爬取的url的它是否存储所有以类似方式爬行的网址crawled urls list 当它得到一个新的 url 时它会查找列表以检查该 url 是否存在这个过滤部分的代码在哪里爬行蜘蛛 path to
将 Base64 字符串转换为位图或图像 Xamarin 或 Android [重复]

这个问题在这里已经有答案了我正在尝试将 Base64 字符串转换为图像并使用相同的图像设置 ImageView 我知道如何用 java 完成它但我在 C 中遇到了麻烦有人知道如何用 C 完成它吗我尝试过的一些代码 public Im
fork 如何与逻辑运算符一起使用

main if fork fork fork printf AA n else if fork printf BB n else printf CC n 我运行了以下代码并得到结果 AA AA CC BB CC BB 虽然我了解 fork
如何在Azure中从BLOB读取文件内容并解析CSV文件？

我已将 csv 文件存储在 blob 容器中并尝试从 azure 中的逻辑应用程序读取内容但我面临着获得联系并迭代相同的问题请帮忙处理一下流量您可以将逻辑应用程序与Azure Function结合起来来实现它用于获取文件的 Blo
索引多个文档并映射到唯一的 solr id

我的用例是将 2 个文件索引元数据文件和二进制 PDF 文件到唯一的 solr id 元数据文件具有 XML 文件形式的内容某些架构字段映射到该 XML 文件中的元素我的工作从 PDF 文件中提取内容使用 pdftotext 处理

索引多个文档并映射到唯一的 solr id

索引多个文档并映射到唯一的 solr id 的相关文章

随机推荐

热门标签