在 Linux 上将 MSword 转换为 XML/HTML

2024-01-11

我需要将 MSWord 文件转换为 XML 或 HTML,同时保留文件的结构(主要是表格)。我偶然发现了tika,它在从MSword文件(和任何文件)中提取文本方面非常强大,如下:

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

我可以从选项中选择将输出保存为 html/XML,如下所示:

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html

但输出基本上就像用 HTML 编写的纯文本,因此无法获取表格结构和其他文档元素。

是否有 Tika 的 Perl 或 Python 实现,可以将文档转换为 XML/HTML,同时保持其元素的结构?或者linux上有其他工具可以做到这一点吗?


安装OpenOffice SDK,它为各种文档(包括转换)提供强大的API。

http://www.oooforum.org/forum/viewtopic.phtml?t=7242 http://www.oooforum.org/forum/viewtopic.phtml?t=7242

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 Linux 上将 MSword 转换为 XML/HTML 的相关文章

  • 反思 Groovy 脚本中声明的函数

    有没有一种方法可以获取 Groovy 脚本中声明的函数的反射数据 该脚本已通过GroovyShell目的 具体来说 我想枚举脚本中的函数并访问附加到它们的注释 Put this到 Groovy 脚本的最后一行 它将作为脚本的返回值 a la
  • Java直接内存:在自定义类中使用sun.misc.Cleaner

    在 Java 中 NIO 直接缓冲区分配的内存通过以下方式释放 sun misc Cleaner实例 一些比对象终结更有效的特殊幻像引用 这种清洁器机制是否仅针对直接缓冲区子类硬编码在 JVM 中 或者是否也可以在自定义组件中使用清洁器 例
  • 应用程序关闭时的倒计时问题

    我制作了一个 CountDownTimer 代码 我希望 CountDownTimer 在完成时重新启动 即使应用程序已关闭 但它仅在应用程序正在运行或重新启动应用程序时重新启动 因此 如果我在倒计时为 00 10 分钟 秒 时关闭应用程序
  • Seaborn 中没有线性拟合的散点图

    我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图 当然 我也可以使用 matplotlib 但是 我发现 seaborn 中的语法和美学非常吸引人 例如 我想绘制以下情节 import sea
  • 使用 SAX 进行 XML 解析 |如何处理特殊字符?

    我们有一个 JAVA 应用程序 可以从 SAP 系统中提取数据 解析数据并呈现给用户 使用 SAP JCo 连接器提取数据 最近我们抛出了一个异常 org xml sax SAXParseException 字符引用 是无效的 XML 字符
  • 是否可以在Python中将日+月(不是年)与当前日+月进行比较?

    我正在获取 5 月 10 日 格式的数据 我试图弄清楚它是今年还是明年 该日期仅一年 因此 5 月 10 日表示 2015 年 5 月 10 日 而 5 月 20 日表示 2014 年 5 月 20 日 为此 我想将字符串转换为日期格式并进
  • 当单元格内的 JComboBox 中有 ItemEvent 时,如何获取 CellRow

    我有一个 JTable 其中有一列包含 JComboBox 我有一个附加到 JComboBox 的 ItemListener 它会根据任何更改进行操作 但是 ItemListener 没有获取更改的 ComboBox 所在行的方法 当组合框
  • 如何获取分类数据的分组条形图

    I have a big dataset with information about students And I have to build a graph of dependencies between different value
  • Windows 上的 Nifi 命令

    在我当前的项目中 我一直在Windows操作系统上使用apache nifi 我已经提取了nifi 0 7 0 bin zip文件输入C 现在 当我跑步时 bin run nifi bat as 管理员我在命令行上看到以下消息 但无法运行
  • Android JNI C 简单追加函数

    我想制作一个简单的函数 返回两个字符串的值 基本上 java public native String getAppendedString String name c jstring Java com example hellojni He
  • 无法导入QUERY_TERMS

    我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时 我收到以下错误 importError Could not import
  • 如何通过 Python Requests 库使用基本 HTTP 身份验证?

    我正在尝试在 Python 中使用基本的 HTTP 身份验证 我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
  • 有谁知道在哪里定义硬件、版本和序列号。 /proc/cpuinfo 的字段?

    我想确保我的 proc cpuinfo 是准确的 目前它输出 Hardware am335xevm Revision 0000 Serial 0000000000000000 我可以在代码中的哪里更改它以给出实际值 这取决于 Linux 的
  • Springs 元素“beans”不能具有字符 [children],因为该类型的内容类型是仅元素

    我在 stackoverflow 中搜索了一些页面来解决这个问题 确实遵循了一些正确的答案 但不起作用 我是春天的新人 对不起 这是我的调度程序 servlet
  • 查看Jasper报告执行的SQL

    运行 Jasper 报表 其中 SQL 嵌入到报表文件 jrxml 中 时 是否可以看到执行的 SQL 理想情况下 我还想查看替换每个 P 占位符的值 Cheers Don JasperReports 使用 Jakarta Commons
  • 如何测试 spring-security-oauth2 资源服务器安全性?

    随着 Spring Security 4 的发布改进了对测试的支持 http docs spring io spring security site docs 4 0 x reference htmlsingle test我想更新我当前的
  • 如何使用 enumerate 来倒数?

    letters a b c 假设这是我的清单 在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举 如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
  • 使用 MPI 的 Allreduce 对 Python 对象求和

    我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作 我想让并行使用这个数组操作成为可能 最重要的是 我最终在每个节点上都有计数器 我想使用 MPI Allreduce 或另一个不错的解决方案 将其添加在一起 例如 使用计数
  • 基于值的 matplotlib 条形图颜色

    有没有一种方法可以根据条形图的值对条形图的条形进行着色 例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些
  • java8 Collectors.toMap() 限制?

    我正在尝试使用java8Collectors toMap on a Stream of ZipEntry 这可能不是最好的想法 因为在处理过程中可能会发生异常 但我想这应该是可能的 我现在收到一个我不明白的编译错误 我猜是类型推理引擎 这是

随机推荐

  • 使用 Retrofit Android 进行相互身份验证

    I need to send a CRT and KEY file on an api request I managed to do the request using Postman but I don t know how to pa
  • Instagram API:身份验证期间强制提​​示

    有没有办法让 Instagram auth login 始终要求身份验证 当用户登录并且已经授权该应用程序时 此操作将被跳过 这就像推特的use authorize true或谷歌的approval prompt force 我相信最简单的
  • Android 使用 OnClick 从 SD 卡删除图像

    我试图简单地从一个简单的应用程序中删除图像 我有它 当您单击图像时 它会弹出一个对话框 其中包含删除它的选项 我以为这只是简单的事情 但我一直在尝试的一切似乎都没有起到任何作用 下面是我的代码 任何想法将不胜感激 delete setOnC
  • 具有多个数据库供应商支持的 Java/Maven/JPA/Hibernate 构建的最佳方法?

    我有一个使用单个数据库的企业应用程序 但该应用程序需要支持mysql oracle and sql 服务器作为安装选项 尝试保持便携我们正在使用JPA注释 with 休眠作为实施 我们还为每个正在运行的开发数据库提供了一个测试台实例 该应用
  • 在 Rcpp(Eigen) 中在 NumericVector/Matrix 和 VectorXd/MatrixXd 之间进行转换以执行 Cholesky 求解

    Edit 根据下面德克的回答的一些线索 我解决了这个问题 现在解决了问题的正文 我确信这必须记录在某处 但我的谷歌技能让我失望 我正在开发一个 Rcpp 包 我认为我不需要 依赖于特征 所以我使用NumericVector Matrix相当
  • Windsor可以与其他IoC容器合作吗?

    在我们应用程序的核心中 我们使用 Castle Windsor 来管理我们的依赖项 我们将从第三方加载插件 这些插件可能使用他们自己的 IoC 容器 我们希望它们能够从核心接收依赖项 例如通过构造函数注入核心的服务 还可以从自己的 IoC
  • Jenkins CORS Filter 插件未添加 Access-Control-Allow-Origins 标头

    我正在尝试向我的 Jenkins 服务器添加 CORS 支持 以便我可以从浏览器访问 REST API 环顾四周 推荐的方法是使用CORS 过滤器插件 https github com jenkinsci cors filter plugi
  • 如何在 XAML ListBox 中使用多重绑定?

    下面显示了列表框中的 3x MultiTest Model Customers 它应显示的每条记录一个 我需要改变什么才能让它输出contents代替字段
  • underlineColorAndroid 无法在 android 中工作

    react native cli 2 0 1 react native 0 52 2 在我的 ios 设备中 表单看起来不错 但在 Android 设备中 它在 TextInput 上显示底部边框 class Input extends C
  • 如果要调用多个成员函数,对象编辑器是一个好方法吗?

    我经常对这样的类成员函数的顺序调用感到恼火 忽略新用法 它是针对 Qt 的 但它与 Qt 并不严格相关 A a new A a gt fun1 one a gt fun2 1 2 a gt fun10 end 我总觉得这样的代码应该写成简单
  • 对不确定数量的 Pandas 系列进行逐元素逻辑与

    假设我有一个 n 的列表 可迭代 其中 n 对于函数来说是未知的 Pandas Series 表示逻辑布尔索引 我想对所有这些元素进行 AND 并使用生成的 Series 来索引 DataFrame 目前我正在使用np logical an
  • 如何在Android Studio/IntelliJ中导入Maven依赖?

    我使用 Android Studio 中的默认向导创建了一个新的 Android 项目 编译并将应用程序部署到我的设备上 一切都很好 现在我想导入 Maven 上可用的外部库 http square github io picasso ht
  • 无法连接到 Windows Azure VM (Server 2012 R2) Web 部署服务

    我似乎无法将站点部署到在 Azure VM 中运行 IIS 和 Web 部署的 Windows Server 2012 r2 我已验证端口是否打开 凭据是否正确以及站点名称是否正确 我尝试使用 http 和 https 也尝试 使用 msd
  • 386+ 处理器中的复位向量

    维基百科页面为重置向量 http en wikipedia org wiki Reset vector说 对于 386 处理器 复位时 CS 寄存器选择器部分的值为 F000h CS 寄存器基址部分的值为 FFFF0000h 复位时 IP
  • Django 和 SaaS。如何为每个 Django 站点使用单独的数据库?

    我正在使用 Django 创建一个 SaaS 项目 我决定使用django saas kit https github com zhaque django saas kit对于用户订阅和多帐户部分 理想情况下 我希望能够为每个用户创建一个新
  • C++ 和完全动态函数

    我有走弯路的问题 众所周知 Detours 只能在 5 个字节的空间之间移动 即 jmp 调用和 4 个字节的地址 因此 类 方法 中不可能有 hook 函数 您无法提供 this 指针 因为根本没有足够的空间 here s https s
  • Flask 应用程序无法在 heroku 服务器上启动

    我正在尝试使用 Heroku 部署 Flask 应用程序 这是简单的 API 与 foreman 一起在本地工作得很好 但在 heroku 上启动时出现错误 日志如下 这是我的应用程序代码 我知道它只是在一个块中查找 但我在将其拆分为文件时
  • VB.Net 损坏的字符串 - IDE 错误地将字符串解释为代码

    今天我打开了一个 Visual Basic 项目 其中有几行声明了一些字符串 其中包含逗号分隔的数据 我修改了其中一根字符串 重建并关闭了该项目 当我来测试时 出现了错误 当我查看代码时 我发现我修改的那一行之后的字符串也发生了变化 它们在
  • 使用 URLClassLoader 动态加载 JAR?

    我有一个程序需要能够在运行时动态加载 JAR 环顾四周后我相信它使用了 URLClassLoader 但我不确定如何让它工作 JAR openup jar 与程序位于同一目录中 Ideally我希望能够加载这个 JAR 而不必指定其中的每个
  • 在 Linux 上将 MSword 转换为 XML/HTML

    我需要将 MSWord 文件转换为 XML 或 HTML 同时保留文件的结构 主要是表格 我偶然发现了tika 它在从MSword文件 和任何文件 中提取文本方面非常强大 如下 curl www vit org downloads doc