使用 apache tika 获取 doc 文件中的嵌入资源

2024-03-22

我有包含文本和图像的 MS Word 文档。我想解析它们以获得 xml 结构。经过研究，我最终使用 apache tika 来转换我的文档。我可以将我的文档解析为 xml。这是我的代码：

AutoDetectParser parser=new AutoDetectParser();
InputStream input=new FileInputStream(new File("1.docx"));
Metadata metadata = new Metadata();
StringWriter sw = new StringWriter();
SAXTransformerFactory factory = (SAXTransformerFactory)SAXTransformerFactory.newInstance();
TransformerHandler handler = factory.newTransformerHandler();
handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "xml");
handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "no");
handler.setResult(new StreamResult(sw));

parser.parse(input, handler, metadata, new ParseContext());
String xhtml = sw.toString();

我想从文档中提取图像并将其转换为二进制格式。我不知道如何从文档中提取嵌入资源。

您需要定义自己的类来实现Parser并将其附加到ParseContext您在解析外部文档时提供。然后，您的解析器将被调用以获取所有嵌入资源，如果您愿意，您可以将它们保存出来

我能想到的最好的例子是 Tika CLI，由-z（摘录）标志。如果您查看TikaCLI 的源代码 http://svn.apache.org/repos/asf/tika/trunk/tika-app/src/main/java/org/apache/tika/cli/TikaCLI.java，您正在寻找FileEmbeddedDocumentExtractor作为你的例子。

最简单的代码如下：

final AutoDetectParser parser = new AutoDetectParser();

public class ExtractParser extends AbstractParser {
   private int att = 0;
   public Set<MediaType> getSupportedTypes(ParseContext context) {
     // Everything AutoDetect parser does
     return parser.getSupportedTypes(context);
   }
   public void parse(
        InputStream stream, ContentHandler handler,
        Metadata metadata, ParseContext context)
        throws IOException, SAXException, TikaException {
      // Stream to a new file
      File f = new File("out-" + (++att) + ".bin");
      FileOutputStream fout = new FileOutputStream(f);
      IOUtils.copy(strea, fout);
      fout.closee();
   }
}

InputStream input = new FileInputStream(new File("1.docx"));
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
context.set(Parser.class, extractParser);
parser.parse(input, handler, metadata, context);

您还可以使用EmbeddedDocumentExtractor如果您愿意的话，接口取决于您想要做什么，如果直接使用 Parser 更好

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

apachetika

使用 apache tika 获取 doc 文件中的嵌入资源的相关文章

使用 Intellij Idea 和 gradle 在应用程序引擎上调试 localhost

我正在使用 IntelliJ 社区添加并使用 Gradle 构建应用程序引擎标准环境应用程序在迁移到 IntelliJ 和端点框架之前我使用的是 Android Studio 我无法调试我的本地主机我添加了 jvmFlags 如下所述
按下按钮并在java中的新窗口中打开文件

我创建了一个 JFrame 并放置了一个文本字段和按钮在文本字段中我放置了从文本文件读取的名称我知道我想单击按钮并打开一个已知窗口我想在其中放置名称其他信息来自同一个文件这是我的代码这是我的主框架 package Fronten
Java：扩展类并实现具有相同方法的接口

可能无法完成以下操作我收到编译错误继承的方法 A doSomthing int 无法隐藏 B 中的公共抽象方法 public class A int doSomthing int x return x public interface
TreeMap 删除所有大于某个键的键

在项目中我需要删除键值大于某个键的所有对象键类型为Date 如果重要的话据我所知TreeMapJava中实现的是红黑树它是一种二叉搜索树所以我应该得到O n 删除子树时但除了制作尾部视图并一一删除之外我找不到任何方法可以做到这
Java Logger 未记录到 Netbeans 中的输出

我正在 Netbeans 中使用 Maven 启动一个 Java 项目我编写了一些代码来使用 Logger 类进行日志记录但是日志记录似乎不起作用在程序开始时我运行 Logger getLogger ProjectMainClas
如何在 JavaFX 中连接可观察列表？

我所说的串联是指获得一个新列表该列表侦听所有串联部分的更改方法的目的是什么FXCollections concat ObservableList
垃圾收集器如何在幕后工作来收集死对象？

我正在阅读有关垃圾收集的内容众所周知垃圾收集会收集死亡对象并回收内存我的问题是 Collector 如何知道任何对象已死亡它使用什么数据结构来跟踪活动对象我正在研究这个问题我发现GC实际上会跟踪活动对象并标记它们每个未标记的
eclipse行号状态行贡献项是如何实现的？

我需要更新状态行编辑器特定的信息我已经有了自己的实现但我想看看 eclipse 贡献项是如何实现的它显示状态行中的行号列位置谁能指点一下哪里可以找到源代码提前致谢亚历克斯 G 我一直在研究它它非常复杂我不确定我是否了解完
为什么即使我的哈希码值相同，“==”也会返回 false

我写了一个像这样的课程 public class HashCodeImpl public int hashCode return 1 public static void main String args TODO Auto generat
Android studio - 如何保存先前活动中选择的数据

这是我的代码片段这Textview充当按钮并具有Onclicklistner在他们当cpu1000时Textview单击它会导致cpu g1000其代码如下所示的类 public class Game 1000 extends AppC
将巨大的模式编译成Java

有两个主要工具提供了将 XSD 模式编译为 Java 的方法 xmlbeans 和 JAXB 问题是 XSD 模式确实很大 30MB 的 XML 文件大部分模式在我的项目中没有使用所以我可以注释掉大部分代码但这不是一个好的解决方案目
Mockito 使用 @Mock 时将 Null 值注入到 Spring bean 中？

由于我是 Spring Test MVC 的新手我不明白这个问题我从以下代码中获取了http markchensblog blogspot in search label Spring http markchensblog blogsp
如何在字段值无效的情况下更改 Struts2 验证错误消息？

我在 Web 表单上使用 Struts2 验证如果字段假设为整数或日期则
Jetty、websocket、java.lang.RuntimeException：无法加载平台配置器

我尝试在 Endpoint 中获取 http 会话我遵循了这个建议https stackoverflow com a 17994303 https stackoverflow com a 17994303 这就是我这样做的原因 publi
hibernate 6.0.2.Final 和 spring boot 2.7.0 的entityManagerFactory bean 未配置问题

所以最近我想升级我的 Spring Boot 项目项目的一些依赖项特别是这些组件雅加达 EE 9 弹簧靴2 7 休眠 6 0 2 Final 完成此操作后所有更新和代码折射更新将 javax 导入到 jakarta 以及一些 hib
Java Swing - 如何禁用 JPanel？

我有一些JComponents on a JPanel我想在按下开始按钮时禁用所有这些组件目前我通过以下方式显式禁用所有组件 component1 setEnabled false 但是有什么办法可以一次性禁用所有组件吗我尝试禁用
为什么\0在java中不同系统中打印不同的输出

下面的代码在不同的系统中打印不同的输出 String s hello vsrd replace 0 System out println s 当我在我的系统中尝试时 Linux Ubuntu Netbeans 7 1 它打印 When I
Android S8+ 警告消息“不支持当前的显示尺寸设置，可能会出现意外行为”

我在 Samsung S8 Android 7 中收到此警告消息 APP NAME 不支持当前的显示尺寸设置可能会行为出乎意料它意味着什么以及如何删除它谢谢通过添加解决supports screens 机器人 xlargeScre
Hibernate 本机查询 - char(3) 列

我在 Oracle 中有一个表其中列 SC CUR CODE 是 CHAR 3 当我做 Query q2 em createNativeQuery select sc cur code sc amount from sector cost
java'assert'和'if(){}else exit;'之间的区别

java和java有什么区别assert and if else exit 我可以用吗if else exit代替assert 也许有点谷歌您应该记住的主要事情是 if else 语句应该用于程序流程控制而assert 关键字应该仅用于

随机推荐

Hibernate - OGM [PersistenceUnit: person] 无法构建 Hibernate SessionFactory

我收到以下错误线程 main 中出现异常 javax persistence PersistenceException PersistenceUnit person 无法构建 Hibernate SessionFactory 在org h
HTTP代理、隧道、网关有什么区别？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案全部我看到 RFC 2616 中的条款 http www w3 org Protocols rfc2616 rfc2616 sec1 html se
复合文字的生命周期

6 5 2 5p5 http port70 net nsz c c11 n1570 html 6 5 2 5p5 says 如果复合文字出现在函数体之外则对象具有静态存储期限否则它会自动与封闭块相关的存储持续时间我将这里的封闭
当您位于它们链接到的页面上时，HTML 链接不执行任何操作

我目前正在构建一个网站其中包含许多指向我网站不同部分的链接也称为导航让我们调用这些链接及其相应的页面链接 1 第 1 页链接2 第2页链接3 页面3 etc 它们的通用代码是这样的 a href page1 html Link1
在 Java REST 客户端 [6.5] API 上使用 ES 6.5 中的映射创建索引

我是弹性搜索新手并尝试按照这篇文章为应用程序集成自动完成功能https www elastic co blog you complete me https www elastic co blog you complete me 我已按照以
jquery中attr和data的区别？

我正在尝试以下场景我有一个页面其中有内容文章博客等有一些类别可以过滤它们因此当我选择并分类时包含内容的 div 会使用 jquery 进行修改最初显示 7 篇文章博客等如果内容数量超过 7 则有一个按钮可以阅读更多内容
如何在初始 vue.js / vue-router 加载时加载所有服务器端数据？

我目前正在使用 WordPress REST API 和 vue router 在小型单页面网站上的页面之间进行转换但是当我使用 REST API 对服务器进行 AJAX 调用时数据会加载但仅在页面呈现之后才加载 The vue r
使用MOV指令时赋的值是多少？

你能解释一下MOV指令的两种用法有什么区别吗 mov eax namedDataItem mov eax namedDataItem 这里的namedDataItem是在 data节中定义的命名数据项取自NASM手册 http www n
使用 AVFoundation 捕获当前相机图像

当我按下 myButton 时我试图捕获图像并将其保存到变量中我应该怎么办我的代码如下 import UIKit import AVFoundation import MobileCoreServices class ViewCont
oracle 上的 Hibernate 序列，@GenerateValue(strategy = GenerationType.AUTO)

我使用 GenerateValue strategy GenerationType AUTO 在我的实体上生成 ID 我现在不知道它是如何工作的但在我的子表上生成遵循父序列的 ID 值 parent table Entity Table
JAVA - com.sun.xml.internal.messaging.saaj.soap.SAAJMetaFactoryImpl 未找到

我正在开发一个使用 SOAP 请求使用 Web 服务的应用程序有时我会收到此错误 filters LoggerFilter 92 org springframework web util NestedServletException Ha
如何在opencv中对图像应用gabor滤波器？

I ve got some wavelets with the gabor filter code it s something like this 但我不知道如何在我的图像上使用它我知道 matlab 有一些方法即matlab方式 h
在 UICollectionView 中显示上一个/下一个单元格的预览时如何减慢滚动速度？

我知道对于这个问题已经提出了很多问题但大多数问题已经过时或没有答案我的实现的问题不是预览而是它的分页速度我能够显示上一个下一个单元格UICollectionView但是当我尝试快速滚动它时它会滚动通过跳过 1 或 2 页当我
浏览器不会停止使用 jQuery $.get 加载

我使用以下 jQuery 1 4 代码来测试 cookie 是否被接受 get http localhost 8080 cookietester cookietester function data if data false docume
如何将某些特定的短信内容复制到剪贴板？ [复制]

这个问题在这里已经有答案了每当我想输入检查帐户时与我合作的银行都会向我发送一条短信其中包含随机生成的六位数代码而且每次手动打字真的很累我正在考虑制作一个小应用程序以便将六位数字复制到剪贴板中以便每当短信到达时我立即将其粘贴到相
当配置文件未激活时包括 Bean 定义

在我的应用程序中我使用了几个profiles http blog springsource com 2011 02 14 spring 3 1 m1 introducing profile 使某些 bean 适合自动装配我缺少的是当某个配
mysqli_num_rows 无论如何都会返回 1 [重复]

这个问题在这里已经有答案了当我在 phpMyAdmin 中进行 SQL 搜索用变量替换实际值时它会返回正确的行号但是当使用 PHP 返回该值时无论如何它总是返回 1 提前致谢 function user exists usern
如何为钩子创建蹦床函数

我对挂钩很感兴趣我决定看看是否可以挂钩一些函数我对使用 detours 这样的库不感兴趣因为我想拥有自己做的经验通过我在互联网上找到的一些资源我能够创建下面的代码这是基本的但效果还不错然而当挂钩由多个线程调用的函数时它被
寻找在本地磁盘上存储数据的想法

我在 XML 文件中存储了大量数据大小为 173 MB 460 万行并将其存储在 Windows 窗体应用程序的工作目录中它是将数据表写入 XML 文件的结果数据表最初是通过对 SQL 服务器的查询填充的我将其存储在本地而不是从服
使用 apache tika 获取 doc 文件中的嵌入资源

我有包含文本和图像的 MS Word 文档我想解析它们以获得 xml 结构经过研究我最终使用 apache tika 来转换我的文档我可以将我的文档解析为 xml 这是我的代码 AutoDetectParser parser new

使用 apache tika 获取 doc 文件中的嵌入资源

使用 apache tika 获取 doc 文件中的嵌入资源 的相关文章

随机推荐

热门标签

使用 apache tika 获取 doc 文件中的嵌入资源的相关文章