如何检测 doc、xls、ppt 或 pdf 等文档中的图像?
我遇到了 Apache Tika,我正在尝试它的命令行选项。http://tika.apache.org/1.2/gettingstarted.html http://tika.apache.org/1.2/gettingstarted.html
但不太确定它将如何检测图像。
任何帮助表示赞赏。
Thanks
您说过您想使用命令行解决方案,而不是编写任何 Java 代码,因此这不会是最漂亮的方法...如果您乐意编写一点 Java,并创建一个从 Python 调用新程序,那么你可以做得更好!
要做的第一件事是让 Tika 应用程序提取文件中的所有嵌入资源。使用--extract
选项,并让提取发生在您应用程序控制的特殊临时目录中,例如
$ java -jar tika.jar --extract ../testWORD_embedded_pdf.doc
Extracting 'image1.emf' (application/x-emf)
Extracting '_1402837031.pdf' (application/pdf)
如果可以的话,获取提取的输出,并解析该输出以查找图像(但请注意,某些图像具有application/
他们的规范模仿类型的前缀!)。您可能需要对一些(我不确定)运行第二个 --detect 步骤,测试解析器如何进行提取。
现在,如果有图像,它们将位于您的测试目录中。根据需要处理它们。最后,完成文件后,删除临时目录!
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)