在 Linux 上将 MSword 转换为 XML/HTML

2024-01-11

我需要将 MSWord 文件转换为 XML 或 HTML，同时保留文件的结构（主要是表格）。我偶然发现了tika，它在从MSword文件（和任何文件）中提取文本方面非常强大，如下：

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

我可以从选项中选择将输出保存为 html/XML，如下所示：

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html

但输出基本上就像用 HTML 编写的纯文本，因此无法获取表格结构和其他文档元素。

是否有 Tika 的 Perl 或 Python 实现，可以将文档转换为 XML/HTML，同时保持其元素的结构？或者linux上有其他工具可以做到这一点吗？

安装OpenOffice SDK，它为各种文档（包括转换）提供强大的API。

http://www.oooforum.org/forum/viewtopic.phtml?t=7242 http://www.oooforum.org/forum/viewtopic.phtml?t=7242

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

python

Linux

perl

apachetika

在 Linux 上将 MSword 转换为 XML/HTML 的相关文章

反思 Groovy 脚本中声明的函数

有没有一种方法可以获取 Groovy 脚本中声明的函数的反射数据该脚本已通过GroovyShell目的具体来说我想枚举脚本中的函数并访问附加到它们的注释 Put this到 Groovy 脚本的最后一行它将作为脚本的返回值 a la
Java直接内存：在自定义类中使用sun.misc.Cleaner

在 Java 中 NIO 直接缓冲区分配的内存通过以下方式释放 sun misc Cleaner实例一些比对象终结更有效的特殊幻像引用这种清洁器机制是否仅针对直接缓冲区子类硬编码在 JVM 中或者是否也可以在自定义组件中使用清洁器例
应用程序关闭时的倒计时问题

我制作了一个 CountDownTimer 代码我希望 CountDownTimer 在完成时重新启动即使应用程序已关闭但它仅在应用程序正在运行或重新启动应用程序时重新启动因此如果我在倒计时为 00 10 分钟秒时关闭应用程序
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
使用 SAX 进行 XML 解析 |如何处理特殊字符？

我们有一个 JAVA 应用程序可以从 SAP 系统中提取数据解析数据并呈现给用户使用 SAP JCo 连接器提取数据最近我们抛出了一个异常 org xml sax SAXParseException 字符引用是无效的 XML 字符
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
当单元格内的 JComboBox 中有 ItemEvent 时，如何获取 CellRow

我有一个 JTable 其中有一列包含 JComboBox 我有一个附加到 JComboBox 的 ItemListener 它会根据任何更改进行操作但是 ItemListener 没有获取更改的 ComboBox 所在行的方法当组合框
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
Windows 上的 Nifi 命令

在我当前的项目中我一直在Windows操作系统上使用apache nifi 我已经提取了nifi 0 7 0 bin zip文件输入C 现在当我跑步时 bin run nifi bat as 管理员我在命令行上看到以下消息但无法运行
Android JNI C 简单追加函数

我想制作一个简单的函数返回两个字符串的值基本上 java public native String getAppendedString String name c jstring Java com example hellojni He
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
有谁知道在哪里定义硬件、版本和序列号。 /proc/cpuinfo 的字段？

我想确保我的 proc cpuinfo 是准确的目前它输出 Hardware am335xevm Revision 0000 Serial 0000000000000000 我可以在代码中的哪里更改它以给出实际值这取决于 Linux 的
Springs 元素“beans”不能具有字符 [children]，因为该类型的内容类型是仅元素

我在 stackoverflow 中搜索了一些页面来解决这个问题确实遵循了一些正确的答案但不起作用我是春天的新人对不起这是我的调度程序 servlet
查看Jasper报告执行的SQL

运行 Jasper 报表其中 SQL 嵌入到报表文件 jrxml 中时是否可以看到执行的 SQL 理想情况下我还想查看替换每个 P 占位符的值 Cheers Don JasperReports 使用 Jakarta Commons
如何测试 spring-security-oauth2 资源服务器安全性？

随着 Spring Security 4 的发布改进了对测试的支持 http docs spring io spring security site docs 4 0 x reference htmlsingle test我想更新我当前的
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些
java8 Collectors.toMap() 限制？

我正在尝试使用java8Collectors toMap on a Stream of ZipEntry 这可能不是最好的想法因为在处理过程中可能会发生异常但我想这应该是可能的我现在收到一个我不明白的编译错误我猜是类型推理引擎这是

随机推荐

使用 Retrofit Android 进行相互身份验证

I need to send a CRT and KEY file on an api request I managed to do the request using Postman but I don t know how to pa
Instagram API：身份验证期间强制提示

有没有办法让 Instagram auth login 始终要求身份验证当用户登录并且已经授权该应用程序时此操作将被跳过这就像推特的use authorize true或谷歌的approval prompt force 我相信最简单的
Android 使用 OnClick 从 SD 卡删除图像

我试图简单地从一个简单的应用程序中删除图像我有它当您单击图像时它会弹出一个对话框其中包含删除它的选项我以为这只是简单的事情但我一直在尝试的一切似乎都没有起到任何作用下面是我的代码任何想法将不胜感激 delete setOnC
具有多个数据库供应商支持的 Java/Maven/JPA/Hibernate 构建的最佳方法？

我有一个使用单个数据库的企业应用程序但该应用程序需要支持mysql oracle and sql 服务器作为安装选项尝试保持便携我们正在使用JPA注释 with 休眠作为实施我们还为每个正在运行的开发数据库提供了一个测试台实例该应用
在 Rcpp(Eigen) 中在 NumericVector/Matrix 和 VectorXd/MatrixXd 之间进行转换以执行 Cholesky 求解

Edit 根据下面德克的回答的一些线索我解决了这个问题现在解决了问题的正文我确信这必须记录在某处但我的谷歌技能让我失望我正在开发一个 Rcpp 包我认为我不需要依赖于特征所以我使用NumericVector Matrix相当
Windsor可以与其他IoC容器合作吗？

在我们应用程序的核心中我们使用 Castle Windsor 来管理我们的依赖项我们将从第三方加载插件这些插件可能使用他们自己的 IoC 容器我们希望它们能够从核心接收依赖项例如通过构造函数注入核心的服务还可以从自己的 IoC
Jenkins CORS Filter 插件未添加 Access-Control-Allow-Origins 标头

我正在尝试向我的 Jenkins 服务器添加 CORS 支持以便我可以从浏览器访问 REST API 环顾四周推荐的方法是使用CORS 过滤器插件 https github com jenkinsci cors filter plugi
如何在 XAML ListBox 中使用多重绑定？

下面显示了列表框中的 3x MultiTest Model Customers 它应显示的每条记录一个我需要改变什么才能让它输出contents代替字段
underlineColorAndroid 无法在 android 中工作

react native cli 2 0 1 react native 0 52 2 在我的 ios 设备中表单看起来不错但在 Android 设备中它在 TextInput 上显示底部边框 class Input extends C
如果要调用多个成员函数，对象编辑器是一个好方法吗？

我经常对这样的类成员函数的顺序调用感到恼火忽略新用法它是针对 Qt 的但它与 Qt 并不严格相关 A a new A a gt fun1 one a gt fun2 1 2 a gt fun10 end 我总觉得这样的代码应该写成简单
对不确定数量的 Pandas 系列进行逐元素逻辑与

假设我有一个 n 的列表可迭代其中 n 对于函数来说是未知的 Pandas Series 表示逻辑布尔索引我想对所有这些元素进行 AND 并使用生成的 Series 来索引 DataFrame 目前我正在使用np logical an
如何在Android Studio/IntelliJ中导入Maven依赖？

我使用 Android Studio 中的默认向导创建了一个新的 Android 项目编译并将应用程序部署到我的设备上一切都很好现在我想导入 Maven 上可用的外部库 http square github io picasso ht
无法连接到 Windows Azure VM (Server 2012 R2) Web 部署服务

我似乎无法将站点部署到在 Azure VM 中运行 IIS 和 Web 部署的 Windows Server 2012 r2 我已验证端口是否打开凭据是否正确以及站点名称是否正确我尝试使用 http 和 https 也尝试使用 msd
386+ 处理器中的复位向量

维基百科页面为重置向量 http en wikipedia org wiki Reset vector说对于 386 处理器复位时 CS 寄存器选择器部分的值为 F000h CS 寄存器基址部分的值为 FFFF0000h 复位时 IP
Django 和 SaaS。如何为每个 Django 站点使用单独的数据库？

我正在使用 Django 创建一个 SaaS 项目我决定使用django saas kit https github com zhaque django saas kit对于用户订阅和多帐户部分理想情况下我希望能够为每个用户创建一个新
C++ 和完全动态函数

我有走弯路的问题众所周知 Detours 只能在 5 个字节的空间之间移动即 jmp 调用和 4 个字节的地址因此类方法中不可能有 hook 函数您无法提供 this 指针因为根本没有足够的空间 here s https s
Flask 应用程序无法在 heroku 服务器上启动

我正在尝试使用 Heroku 部署 Flask 应用程序这是简单的 API 与 foreman 一起在本地工作得很好但在 heroku 上启动时出现错误日志如下这是我的应用程序代码我知道它只是在一个块中查找但我在将其拆分为文件时
VB.Net 损坏的字符串 - IDE 错误地将字符串解释为代码

今天我打开了一个 Visual Basic 项目其中有几行声明了一些字符串其中包含逗号分隔的数据我修改了其中一根字符串重建并关闭了该项目当我来测试时出现了错误当我查看代码时我发现我修改的那一行之后的字符串也发生了变化它们在
使用 URLClassLoader 动态加载 JAR？

我有一个程序需要能够在运行时动态加载 JAR 环顾四周后我相信它使用了 URLClassLoader 但我不确定如何让它工作 JAR openup jar 与程序位于同一目录中 Ideally我希望能够加载这个 JAR 而不必指定其中的每个
在 Linux 上将 MSword 转换为 XML/HTML

我需要将 MSWord 文件转换为 XML 或 HTML 同时保留文件的结构主要是表格我偶然发现了tika 它在从MSword文件和任何文件中提取文本方面非常强大如下 curl www vit org downloads doc

在 Linux 上将 MSword 转换为 XML/HTML

在 Linux 上将 MSword 转换为 XML/HTML 的相关文章

随机推荐

热门标签