如何检测文档中的图像

2023-12-28

如何检测 doc、xls、ppt 或 pdf 等文档中的图像?

我遇到了 Apache Tika,我正在尝试它的命令行选项。http://tika.apache.org/1.2/gettingstarted.html http://tika.apache.org/1.2/gettingstarted.html

但不太确定它将如何检测图像。

任何帮助表示赞赏。

Thanks


您说过您想使用命令行解决方案,而不是编写任何 Java 代码,因此这不会是最漂亮的方法...如果您乐意编写一点 Java,并创建一个从 Python 调用新程序,那么你可以做得更好!

要做的第一件事是让 Tika 应用程序提取文件中的所有嵌入资源。使用--extract选项,并让提取发生在您应用程序控制的特殊临时目录中,例如

$ java -jar tika.jar --extract ../testWORD_embedded_pdf.doc
Extracting 'image1.emf' (application/x-emf)
Extracting '_1402837031.pdf' (application/pdf)

如果可以的话,获取提取的输出,并解析该输出以查找图像(但请注意,某些图像具有application/他们的规范模仿类型的前缀!)。您可能需要对一些(我不确定)运行第二个 --detect 步骤,测试解析器如何进行提取。

现在,如果有图像,它们将位于您的测试目录中。根据需要处理它们。最后,完成文件后,删除临时目录!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何检测文档中的图像 的相关文章

  • Django 与 mod_wsgi 在 apache - 500 错误:Authtype 未设置?

    尝试在 Dreamhost 上部署我的第一个 django 站点 我的这个工作正常 然后我不确定我做了什么让它停止工作 这是错误消息 crit client 74 72 99 26 configuration error couldn t
  • Internet Explorer 8 + 放气

    我有一个非常奇怪的问题 我真的希望有人能给出答案 因为我不知道还能去哪里问 我正在用 C 编写一个 cgi 应用程序 它由 Apache 执行并输出 HTML 代码 我自己在 C 应用程序中压缩 HTML 输出 因为我的 Web 主机由于某
  • 在 Apache 上设置 websocket?

    所以我正在对 websockets 进行一些研究 我有几个问题似乎找不到明确的答案 如何在 Linux 服务器上设置 Web 套接字 有 Apache 模块吗 我可以吗have使用第 3 方 PHP 代码或类似代码 除了浏览器兼容性之外 问
  • 在 htaccess 文件中使用 RewriteMap

    如何在 htaccess 文件中使用 RewriteMap 指令 当我把它放在那里时 我收到 此处不允许 RewriteMap 错误 我知道当将其放入 httpd conf 或虚拟主机配置文件中时 此错误将会消失 但我想知道是否可以将其放入
  • 为什么有人将(Apache mod_expires 参数)ExpiresByType 设置为“访问加 0 秒”?

    在审查答案时这个帖子 https stackoverflow com questions 9933012 how to use mod headers and mod expires to cache 我不明白为什么这里使用 0 秒作为最佳
  • 从 Apache 运行 python 脚本的最简单方法

    我花了很长时间试图弄清楚这一点 我基本上正在尝试开发一个网站 当用户单击特定按钮时 我必须在其中执行 python 脚本 在研究了 Stack Overflow 和 Google 之后 我需要配置 Apache 以便能够运行 CGI 脚本
  • Http POST 删除 URL 中的端口

    我有一个用 Django 构建的网络应用程序 我目前正在家里的路由器后面的笔记本电脑上运行它 我将路由器配置为将发送到特定端口的所有流量路由到该笔记本电脑 我将 Nginx 作为 Apache 的反向代理 使用 mod wsgi 来运行 D
  • Tomcat如何通过IP地址限制访问?

    有谁知道Tomcat是否可以通过IP地址限制对某些应用程序的访问 例如Apache的 htaccess 你添加一个Valve to the Context in context xml 具体来说 org apache catalina va
  • 设置 Silex Bootstrap 时出现 Apache 错误:无法检查 htaccess 文件

    我正在尝试使用 Silex Bootstrap 建立一个网站 我已将它与其他 Web 项目一起放在我的文件夹中 并更改了 Apache 配置中的 DocumentRoot
  • 创建动态子域

    自从我考虑一些网站正在实施的此功能以来已经有一段时间了 它看起来非常成功 类似的网站tumblr com blogger com wordpress com允许用户使用简单的 HTML PHP 表单从网站内注册新的子域名 以我目前对 PHP
  • Apache:重定向用户,但保持相同的路径?

    我希望能够将用户重定向到不同的 TLD 但保持相同的路径 例如 如果用户访问 example com cars 10 使用 apache 如何将用户重定向到类似以下内容 my new site com cars 10 如果您的服务器启用了
  • Apache mod_rewrite 将双斜杠转换为单斜杠

    我有一个像这样的网址 http example com img php url http example2 com path to image name jpg 所以我通过这个问题创建了一条规则Apache mod rewrite 复杂 U
  • 正则表达式捕获和替换可以与 Apache DirectoryMatch 指令一起使用吗?

    有谁知道是否可以在 Apache 的 DirectoryMatch 指令中使用正则表达式捕获 我想做类似以下的事情
  • Capistrano 和 XSendFile 配置

    我正在尝试使用 Apache 2 2 Passenger 4 0 59 和 XSendFile 0 12 配置 Rails 生产服务器 应用程序通过 Capistrano 部署 部署的应用程序生成 可能很大 PDF Rails root t
  • 使用 SERVER_NAME 时出现 Flask 404

    在我的 Flask 配置中 我将 SERVER NAME 设置为 app example com 之类的域 我这样做是因为我需要使用url for with external网址 如果未设置 SERVER NAME Flask 会认为服务器
  • 如果文件名减去扩展名,.htaccess url 重写行为将被覆盖。与网址相同

    我正在尝试整理 URL 并从中删除 php 扩展名等 我位于网站的基本文件夹中 因此没有可以优先处理的父 htaccess 文件或其他文件 这是我的 htaccess 代码 RewriteEngine On RewriteRule give
  • AH10411 错误:在 apache mod_rewrite 中管理空格和 %20

    我今天更新了 Apache 到 2 4 56 1 并且加载了 htaccess过去有效的重写现在出现了 AH10411 错误 与查询中的空格有关 我正在努力寻找 适当 的解决方案 用户单击一个链接 例如 a href FISH 20J123
  • 从子目录文件夹中删除尾部斜杠 Apache 1.3.42 DirectorySlash Off .htaccess

    我正在尝试从 Apache 1 3 42 中的子目录文件夹中删除尾部斜杠 但是命令DirectorySlash Off当我尝试将规则添加到我的 Apache 版本时 不支持 htaccess file 目前我的链接行为如下 www exam
  • 带有 LDAP 身份验证的 SVN 不起作用

    我首先从我的设置开始 为此我们有 2 台服务器 Server1 将用于所有源代码 文件等 在 Server2 上 我们拥有所有用户信息和登录信息 两台服务器都运行在 Centos 6 4 上 现在我们要在 server1 上设置一个 SVN
  • 显式删除会话cookie会产生什么影响?

    我使用 php session 来维护用户的会话 Session 在登录后创建 在注销或超时后销毁 我需要管理面板中的一个选项来强制注销任何用户 如果他在网站上处于活动状态 我怎样才能做到这一点 我正在考虑删除临时会话文件 这应该有效地破坏

随机推荐

  • 是否可以在运行时可靠地检测哪个商店安装了 Android 应用程序(Google Play 或 Amazon Market)?

    我需要知道哪个商店是应用程序的安装程序 以便我知道与哪个商店进行通信以实现应用程序内购买功能 是确定的100 可靠生成两个单独的二进制文件的方法 或者有没有一个100 可靠基于代码的运行时方法 Stackoverflow 上还有很多类似的问
  • 如何比较两个 tm(来自 ctime)变量

    我刚刚开始学习C 我正在使用 Windows 7 Ultimate x64 和 Visual Studio 版本 Microsoft Visual Studio Enterprise 2017 Version 15 9 12 VisualS
  • java - 通过数轴从 JTextArea 获取文本

    对于我的情况 我想通过数字行获取 JTextArea 内的文本 For e g name andy birth jakarta 1 jan 1990 number id 01011990 01 age 26 study Informatic
  • 在 NuGet 包管理器控制台上运行脚本

    我正在使用 MvcScaffolding NuGet 包来搭建几个控制器 我目前正在重复相同的过程 即 Scaffold Controller MyController Repository Force 我为许多控制器执行此操作 有没有办法
  • C# 中的 GPS103 跟踪器监听应用程序

    我正在用 C 为我的 GPS 跟踪器开发一个基于控制台的监听应用程序 我的 GPS 跟踪器配置为在我的应用程序运行的特定端口的服务器上发送数据包 现在的事情是根据GPS103的协议文档 它首先发送字符串 例如 12345678999121
  • 蓝牙文件交换完全安全吗? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 通过蓝牙传输文件时可能会面临哪些攻击 另外 Android手机之间通过蓝牙传输的文件是否加密 两种常见的攻击是 被动窃听和中间人攻击 如果您使用的是蓝
  • 事件出队后,Javascript 事件循环如何处理非阻塞函数调用的执行?

    假设调用堆栈上有 5 个内容 事件队列中有一项 一旦所有 5 个项目都从调用堆栈中弹出 事件队列中的回调就会被推送到调用堆栈上 可能需要 20 秒才能完成 与此同时 我向调用堆栈添加了另一个 非阻塞 调用 如果 I O 密集型操作仍在执行
  • 将数组映射到接口

    假设我有一个如下所示的数组 const options name foo type boolean name bar type string name bar should be baz not bar type number 我希望使用这
  • 获取元素的打印页码

    我正在从事一个涉及将 PDF 手册转换为 html 的项目 我试图在打印时保留 PDF 的价值 同时在不受页面概念约束的设备上为它们提供更好的用户界面 我遇到的问题是这些手册有一个目录 其中包含每个章节开始的页码 在设备上查看时 该列表只是
  • 如何列出 npm 用户安装的软件包

    如何列出用户安装 环境包only in npm 当我做npm g list 它输出每个包及其依赖项 相反 我想查看安装在current工作项目或环境 npm list g depth 0 npm Node js 包管理器命令行工具 list
  • 如何在iphone sdk中以编程方式获取图像占用的内存大小?

    我想打印加载特定图像时图像占用的内存量 谁能有想法吗 请帮我 谢谢 拉克什米 UIImage没有提供明显的方式来告诉底层数据的内存 不过 我们可以使用 Core Graphics 来进行估算 您可能可以通过执行以下操作来估计图像占用的内存
  • 防止模态表单在退出时关闭所有非模态打开的表单

    我在 Excel 中使用 VBA 表单时遇到了一些奇怪的行为 我有一个调用无模式表单的模块 它充当调用其他表单的中心 其他形式作为模态形式调用 问题是 一旦子窗体被隐藏或卸载 父无模式窗体也会关闭 我试图找到这个问题的答案 但尽管存在这样的
  • C# CompareTo 方法混乱

    我试图理解 C 中的 CompareTo 方法 我明白 如果两个变量相同 我会得到 0 但是 1 和 1 的部分让我有点困惑 有人可以更直观地向我解释一下吗 是的 我阅读了文档 你说你读过文档 https learn microsoft c
  • 从本地主机连接到 Docker MySQL 容器?

    我正在运行一个 docker mysql 映像 以下是 docker compose yml 文件的样子 db image mysql environment MYSQL ROOT PASSWORD MYSQL ALLOW EMPTY PA
  • iphone - 当视图的阴影打开时,动画的性能非常差

    我有一个UILabel with CALayer阴影 我只是通过移动它UIView动画片 性能很差 我可以看到动画一点也不流畅 我认为这是影子UILabel这会导致动画问题 因为如果我关闭阴影 动画就会变得像正常一样平滑 我尝试过使用vie
  • Laravel5:compiled.php 第 3123 行中出现 TokenMismatchException:

    情况 如果已经被问过 请提前抱歉 但无论如何我都无法让它发挥作用 我使用 Laravel 5 作为 API 我有一个简单的功能来编辑任务 我正在通过我的网络应用程序或邮递员对其进行测试 我总是收到此错误 TokenMismatchExcep
  • chrome 扩展:未捕获类型错误:无法读取未定义的属性(读取“onClicked”)[重复]

    这个问题在这里已经有答案了 我一直在创建一个 chrome 扩展 它应该在扩展单击时在特定选项卡上运行特定脚本 index js service worker js action on extension click chrome brow
  • MVC 验证低于/高于其他值

    在 MVC Net 中验证模型的最佳方法是什么 我想接受最小值 最大值 不是字段的单个最小 最大值 但用户可以使用单独的字段来指定最小值 最大值 public class FinanceModel public int MinimumCos
  • 如何在 codeigniter 挂钩中检索第三个 uri 段

    我正在编写一个自定义 post controller 挂钩 我们知道 codeigniter uri结构是这样的 example com class function id 和我的代码 function hook acl global RT
  • 如何检测文档中的图像

    如何检测 doc xls ppt 或 pdf 等文档中的图像 我遇到了 Apache Tika 我正在尝试它的命令行选项 http tika apache org 1 2 gettingstarted html http tika apac