如何检测文档中的图像

2023-12-28

如何检测 doc、xls、ppt 或 pdf 等文档中的图像？

我遇到了 Apache Tika，我正在尝试它的命令行选项。http://tika.apache.org/1.2/gettingstarted.html http://tika.apache.org/1.2/gettingstarted.html

但不太确定它将如何检测图像。

任何帮助表示赞赏。

Thanks

您说过您想使用命令行解决方案，而不是编写任何 Java 代码，因此这不会是最漂亮的方法...如果您乐意编写一点 Java，并创建一个从 Python 调用新程序，那么你可以做得更好！

要做的第一件事是让 Tika 应用程序提取文件中的所有嵌入资源。使用--extract选项，并让提取发生在您应用程序控制的特殊临时目录中，例如

$ java -jar tika.jar --extract ../testWORD_embedded_pdf.doc
Extracting 'image1.emf' (application/x-emf)
Extracting '_1402837031.pdf' (application/pdf)

如果可以的话，获取提取的输出，并解析该输出以查找图像（但请注意，某些图像具有application/他们的规范模仿类型的前缀！）。您可能需要对一些（我不确定）运行第二个 --detect 步骤，测试解析器如何进行提取。

现在，如果有图像，它们将位于您的测试目录中。根据需要处理它们。最后，完成文件后，删除临时目录！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apache

apachetika

如何检测文档中的图像的相关文章

Django 与 mod_wsgi 在 apache - 500 错误：Authtype 未设置？

尝试在 Dreamhost 上部署我的第一个 django 站点我的这个工作正常然后我不确定我做了什么让它停止工作这是错误消息 crit client 74 72 99 26 configuration error couldn t
Internet Explorer 8 + 放气

我有一个非常奇怪的问题我真的希望有人能给出答案因为我不知道还能去哪里问我正在用 C 编写一个 cgi 应用程序它由 Apache 执行并输出 HTML 代码我自己在 C 应用程序中压缩 HTML 输出因为我的 Web 主机由于某
在 Apache 上设置 websocket？

所以我正在对 websockets 进行一些研究我有几个问题似乎找不到明确的答案如何在 Linux 服务器上设置 Web 套接字有 Apache 模块吗我可以吗have使用第 3 方 PHP 代码或类似代码除了浏览器兼容性之外问
在 htaccess 文件中使用 RewriteMap

如何在 htaccess 文件中使用 RewriteMap 指令当我把它放在那里时我收到此处不允许 RewriteMap 错误我知道当将其放入 httpd conf 或虚拟主机配置文件中时此错误将会消失但我想知道是否可以将其放入
为什么有人将（Apache mod_expires 参数）ExpiresByType 设置为“访问加 0 秒”？

在审查答案时这个帖子 https stackoverflow com questions 9933012 how to use mod headers and mod expires to cache 我不明白为什么这里使用 0 秒作为最佳
从 Apache 运行 python 脚本的最简单方法

我花了很长时间试图弄清楚这一点我基本上正在尝试开发一个网站当用户单击特定按钮时我必须在其中执行 python 脚本在研究了 Stack Overflow 和 Google 之后我需要配置 Apache 以便能够运行 CGI 脚本
Http POST 删除 URL 中的端口

我有一个用 Django 构建的网络应用程序我目前正在家里的路由器后面的笔记本电脑上运行它我将路由器配置为将发送到特定端口的所有流量路由到该笔记本电脑我将 Nginx 作为 Apache 的反向代理使用 mod wsgi 来运行 D
Tomcat如何通过IP地址限制访问？

有谁知道Tomcat是否可以通过IP地址限制对某些应用程序的访问例如Apache的 htaccess 你添加一个Valve to the Context in context xml 具体来说 org apache catalina va
设置 Silex Bootstrap 时出现 Apache 错误：无法检查 htaccess 文件

我正在尝试使用 Silex Bootstrap 建立一个网站我已将它与其他 Web 项目一起放在我的文件夹中并更改了 Apache 配置中的 DocumentRoot
创建动态子域

自从我考虑一些网站正在实施的此功能以来已经有一段时间了它看起来非常成功类似的网站tumblr com blogger com wordpress com允许用户使用简单的 HTML PHP 表单从网站内注册新的子域名以我目前对 PHP
Apache：重定向用户，但保持相同的路径？

我希望能够将用户重定向到不同的 TLD 但保持相同的路径例如如果用户访问 example com cars 10 使用 apache 如何将用户重定向到类似以下内容 my new site com cars 10 如果您的服务器启用了
Apache mod_rewrite 将双斜杠转换为单斜杠

我有一个像这样的网址 http example com img php url http example2 com path to image name jpg 所以我通过这个问题创建了一条规则Apache mod rewrite 复杂 U
正则表达式捕获和替换可以与 Apache DirectoryMatch 指令一起使用吗？

有谁知道是否可以在 Apache 的 DirectoryMatch 指令中使用正则表达式捕获我想做类似以下的事情
Capistrano 和 XSendFile 配置

我正在尝试使用 Apache 2 2 Passenger 4 0 59 和 XSendFile 0 12 配置 Rails 生产服务器应用程序通过 Capistrano 部署部署的应用程序生成可能很大 PDF Rails root t
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器
如果文件名减去扩展名，.htaccess url 重写行为将被覆盖。与网址相同

我正在尝试整理 URL 并从中删除 php 扩展名等我位于网站的基本文件夹中因此没有可以优先处理的父 htaccess 文件或其他文件这是我的 htaccess 代码 RewriteEngine On RewriteRule give
AH10411 错误：在 apache mod_rewrite 中管理空格和 %20

我今天更新了 Apache 到 2 4 56 1 并且加载了 htaccess过去有效的重写现在出现了 AH10411 错误与查询中的空格有关我正在努力寻找适当的解决方案用户单击一个链接例如 a href FISH 20J123
从子目录文件夹中删除尾部斜杠 Apache 1.3.42 DirectorySlash Off .htaccess

我正在尝试从 Apache 1 3 42 中的子目录文件夹中删除尾部斜杠但是命令DirectorySlash Off当我尝试将规则添加到我的 Apache 版本时不支持 htaccess file 目前我的链接行为如下 www exam
带有 LDAP 身份验证的 SVN 不起作用

我首先从我的设置开始为此我们有 2 台服务器 Server1 将用于所有源代码文件等在 Server2 上我们拥有所有用户信息和登录信息两台服务器都运行在 Centos 6 4 上现在我们要在 server1 上设置一个 SVN
显式删除会话cookie会产生什么影响？

我使用 php session 来维护用户的会话 Session 在登录后创建在注销或超时后销毁我需要管理面板中的一个选项来强制注销任何用户如果他在网站上处于活动状态我怎样才能做到这一点我正在考虑删除临时会话文件这应该有效地破坏

随机推荐

是否可以在运行时可靠地检测哪个商店安装了 Android 应用程序（Google Play 或 Amazon Market）？

我需要知道哪个商店是应用程序的安装程序以便我知道与哪个商店进行通信以实现应用程序内购买功能是确定的100 可靠生成两个单独的二进制文件的方法或者有没有一个100 可靠基于代码的运行时方法 Stackoverflow 上还有很多类似的问
如何比较两个 tm（来自 ctime）变量

我刚刚开始学习C 我正在使用 Windows 7 Ultimate x64 和 Visual Studio 版本 Microsoft Visual Studio Enterprise 2017 Version 15 9 12 VisualS
java - 通过数轴从 JTextArea 获取文本

对于我的情况我想通过数字行获取 JTextArea 内的文本 For e g name andy birth jakarta 1 jan 1990 number id 01011990 01 age 26 study Informatic
在 NuGet 包管理器控制台上运行脚本

我正在使用 MvcScaffolding NuGet 包来搭建几个控制器我目前正在重复相同的过程即 Scaffold Controller MyController Repository Force 我为许多控制器执行此操作有没有办法
C# 中的 GPS103 跟踪器监听应用程序

我正在用 C 为我的 GPS 跟踪器开发一个基于控制台的监听应用程序我的 GPS 跟踪器配置为在我的应用程序运行的特定端口的服务器上发送数据包现在的事情是根据GPS103的协议文档它首先发送字符串例如 12345678999121
蓝牙文件交换完全安全吗？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案通过蓝牙传输文件时可能会面临哪些攻击另外 Android手机之间通过蓝牙传输的文件是否加密两种常见的攻击是被动窃听和中间人攻击如果您使用的是蓝
事件出队后，Javascript 事件循环如何处理非阻塞函数调用的执行？

假设调用堆栈上有 5 个内容事件队列中有一项一旦所有 5 个项目都从调用堆栈中弹出事件队列中的回调就会被推送到调用堆栈上可能需要 20 秒才能完成与此同时我向调用堆栈添加了另一个非阻塞调用如果 I O 密集型操作仍在执行
将数组映射到接口

假设我有一个如下所示的数组 const options name foo type boolean name bar type string name bar should be baz not bar type number 我希望使用这
获取元素的打印页码

我正在从事一个涉及将 PDF 手册转换为 html 的项目我试图在打印时保留 PDF 的价值同时在不受页面概念约束的设备上为它们提供更好的用户界面我遇到的问题是这些手册有一个目录其中包含每个章节开始的页码在设备上查看时该列表只是
如何列出 npm 用户安装的软件包

如何列出用户安装环境包only in npm 当我做npm g list 它输出每个包及其依赖项相反我想查看安装在current工作项目或环境 npm list g depth 0 npm Node js 包管理器命令行工具 list
如何在iphone sdk中以编程方式获取图像占用的内存大小？

我想打印加载特定图像时图像占用的内存量谁能有想法吗请帮我谢谢拉克什米 UIImage没有提供明显的方式来告诉底层数据的内存不过我们可以使用 Core Graphics 来进行估算您可能可以通过执行以下操作来估计图像占用的内存
防止模态表单在退出时关闭所有非模态打开的表单

我在 Excel 中使用 VBA 表单时遇到了一些奇怪的行为我有一个调用无模式表单的模块它充当调用其他表单的中心其他形式作为模态形式调用问题是一旦子窗体被隐藏或卸载父无模式窗体也会关闭我试图找到这个问题的答案但尽管存在这样的
C# CompareTo 方法混乱

我试图理解 C 中的 CompareTo 方法我明白如果两个变量相同我会得到 0 但是 1 和 1 的部分让我有点困惑有人可以更直观地向我解释一下吗是的我阅读了文档你说你读过文档 https learn microsoft c
从本地主机连接到 Docker MySQL 容器？

我正在运行一个 docker mysql 映像以下是 docker compose yml 文件的样子 db image mysql environment MYSQL ROOT PASSWORD MYSQL ALLOW EMPTY PA
iphone - 当视图的阴影打开时，动画的性能非常差

我有一个UILabel with CALayer阴影我只是通过移动它UIView动画片性能很差我可以看到动画一点也不流畅我认为这是影子UILabel这会导致动画问题因为如果我关闭阴影动画就会变得像正常一样平滑我尝试过使用vie
Laravel5：compiled.php 第 3123 行中出现 TokenMismatchException：

情况如果已经被问过请提前抱歉但无论如何我都无法让它发挥作用我使用 Laravel 5 作为 API 我有一个简单的功能来编辑任务我正在通过我的网络应用程序或邮递员对其进行测试我总是收到此错误 TokenMismatchExcep
chrome 扩展：未捕获类型错误：无法读取未定义的属性（读取“onClicked”）[重复]

这个问题在这里已经有答案了我一直在创建一个 chrome 扩展它应该在扩展单击时在特定选项卡上运行特定脚本 index js service worker js action on extension click chrome brow
MVC 验证低于/高于其他值

在 MVC Net 中验证模型的最佳方法是什么我想接受最小值最大值不是字段的单个最小最大值但用户可以使用单独的字段来指定最小值最大值 public class FinanceModel public int MinimumCos
如何在 codeigniter 挂钩中检索第三个 uri 段

我正在编写一个自定义 post controller 挂钩我们知道 codeigniter uri结构是这样的 example com class function id 和我的代码 function hook acl global RT
如何检测文档中的图像

如何检测 doc xls ppt 或 pdf 等文档中的图像我遇到了 Apache Tika 我正在尝试它的命令行选项 http tika apache org 1 2 gettingstarted html http tika apac

如何检测文档中的图像

如何检测文档中的图像 的相关文章

随机推荐

热门标签

如何检测文档中的图像的相关文章