Tika Parser:排除 PDF 附件

2023-12-02

有一个 PDF 文档,其中包含 Tika 不应提取的附件(此处为:joboptions)。内容不应发送到 Solr。有没有办法在 Tika 配置中排除某些(或全部)PDF 附件?


@gagravarr,我们通过以下方式改变了这种行为蒂卡-2096,蒂卡1.15。现在默认设置为“提取所有嵌入文档”。为了避免解析嵌入文档,请调用:

parseContext.set(Parser.class, new EmptyParser())

或者子类EmbeddedDocumentExtractor不执行任何操作并通过ParseContext.

如果您使用 Solr DIHTikaEntityProcessor,我设置extractEmbedded to false,但你不是;请不要。 :)

因此,我认为没有一种简单的方法可以关闭仅针对 PDF 的嵌入文档的解析,而且我不确定您是否愿意这样做。例如,如果 PDF 中附加了 MSWord 文件怎么办?

如果你想忽略.joboptions,你可以使用自定义EmbeddedDocumentExtractor.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Tika Parser:排除 PDF 附件 的相关文章

随机推荐

  • .NET Core 3.1 Web 应用程序与 React - 如何防止基于 Active Directory 组的访问

    我有一个 NET Core 3 1 Web 应用程序 其中包含使用 Windows 身份验证的 React 当用户输入他们的 Active Directory 凭据时 我想在允许访问 React 应用程序之前验证他们属于特定的 Active
  • ember.js 中的多个动态段

    我目前的路线定义如下 App Router map function this resource players path page id function this resource player path player id 我的想法是
  • 记录用户登录,以便报告客户端超出许可证数量

    我是商业 Windows 应用程序 c 的首席开发人员 一项新要求是跟踪滥用许可证的客户 例如 假设客户购买了 10 个用户许可协议 即在任何给定时间有 10 个并发用户 我需要能够在回顾历史记录时报告客户同时登录的用户数超过 10 的情况
  • 用户输入到二维数组中

    我对 C 完全陌生 我想要简单的代码来根据用户输入创建矩阵 E G int matrix1 new int 2 2 now using input i d like to add integers into the array matrix
  • 创建一个构建过程模板,该模板除了将所有文件复制到另一个目录外什么也不做

    我想在 TFS 2012 Express 中创建一个构建定义 它将简单地将项目源树中的所有文件复制到驱动器上的另一个文件夹中 只是强调 我不希望构建输出转到另一个目录 我希望源文件本身 原因是我让 IIS 指向特定文件夹 并且我希望构建将最
  • 在 django-webodt 中使用可变图像

    有人使用吗django webodt 浏览文档 我找不到有关在文档中使用图像的任何内容 我想在 ODT 文档中插入 可变 图像 ImageField 这可能吗 我正在使用 OpenOffice 后端 我不知道这是否适合你 我使用pod在我的
  • Rust 中 Result 中的“T”代表什么?

    官方文档做了很多参考T enum Result
  • 无法使用 Express 发布 / 错误

    我正在尝试使用express 创建一个简单的表单处理程序 我为我的表单尝试了以下代码
  • C/C++ 中的整数除法会遇到精度损失问题吗?

    假设我们有三个整数 int long long long unsigned int 等 变量a b c 通常情况下 执行 c a b 将导致分数截断 但是 c 有可能得到错误的值吗 我不是在谈论 a b 可能超出范围c s type 相反
  • 从 Parse 查询 GeoPoint 并将其作为 MKAnnotation 添加到 MapKit?

    我正在尝试查询存储在 Parse 后端的 PFGeoPoints 数组 我在 Parse 中有一个名为 Post 的 PFObject 并为其分配了 位置 标题 消息 等数据 从我的应用程序发布后 所有内容都会发送到 Parse 并正确存储
  • playframework中的多个文件上传

    我在上传多个文件时遇到一些问题 当我选择x个文件时 它成功通过 但第一个文件正在上传x次 而其他文件根本没有上传 有人能指出我做错了什么吗 Form form Projects uploadPictures project id encty
  • 从 HTML 表中检索过滤后的数据并将其格式化为数组

    我一直在 PHP 系统中开发一个函数 我可以在其中过滤记录 然后将其导出到具有使用 PHPSpreadSheet 模板的 Excel 我的问题是我不知道如何检索上面标题中所述的过滤记录 我想我的代码中遗漏了一些东西 这是我将记录从数据库提取
  • 使用 R 中的 3d Delaunay 三角面板绘制球体表面

    EDIT 更通用的解决方案可以在答案中看到这个问题 我想知道是否有人可以帮助我使用 XYZ 坐标绘制球体表面的近似值 我尝试使用该包计算 Delaunay 三角面板geometry然后用rgl 第一次尝试看起来不错 但不幸的是创建了穿过球体
  • 通过ajax和php动态更新页面

    我想通过ajax将数据提交到数据库 并将数据插入数据库后 该数据应该显示在文件上演示 html最后动态地 即在我的例子中的 div 之后 我已经通过ajax存储数据了 但我不知道如何显示这个新插入的数据演示 html 所以请指导我如何实现这
  • 让长字符串换行的好方法?

    在我的项目中 我有一堆从文件中读取的字符串 其中大多数在命令控制台中打印时 长度超过 80 个字符并且环绕 看起来很难看 我希望能够让 Python 读取该字符串 然后测试它的长度是否超过 75 个字符 如果是 则将字符串拆分为多个字符串
  • 在所有服务器上删除触发器

    我有一个触发器来阻止某人使用 Management Studio CREATE TRIGGER TR LOGON APP ON ALL SERVER FOR LOGON AS BEGIN DECLARE program name NVARC
  • 无法将 list 传输到 Web 服务?

    我的服务器和网络服务上有相同的类 我有以下 WebMethod WebMethod public int CreateOrder List
  • 使用VBA完全控制另一个程序

    我目前正在致力于简化工作流程 它涉及使用串行连接传输数据的 Chatillon DFIS 测力计 数据以文本形式发送到 Chattillon 程序 并且只能保存为 dat 文件 我正在尝试设置一个 Excel 工作簿 它可以自动打开程序并使
  • 当 mobx 存储中的状态发生变化时,Ant-Design Table 不会渲染

    我对 ant design Table 组件中单击一行的行为进行了编程 这应该更改表上的 rowClassName 这是 CodeSandBox 上的示例 当您单击表行时 Store selectedRowKey 中的值会发生变化 但表不会
  • Tika Parser:排除 PDF 附件

    有一个 PDF 文档 其中包含 Tika 不应提取的附件 此处为 joboptions 内容不应发送到 Solr 有没有办法在 Tika 配置中排除某些 或全部 PDF 附件 gagravarr 我们通过以下方式改变了这种行为蒂卡 2096