我的任务是找到一种将大量 .docx 文件转换为 docbook 5 的方法。目前,我们在 openoffice 中打开该文件并保存到 docbook。这是一项耗时的任务,但我相信有更好的方法。然后,这些文件将被进一步处理为我们的自定义relax NG 模式。因此,这种转换不需要完美无缺。我环顾四周,并将继续调查一些线索,但没有发现任何有用的东西。
看着将 doc/docx 转换为语义 HTML https://stackoverflow.com/questions/1335412/convert-doc-docx-to-semantic-html他们建议upCast http://www.upcast.de/,但这似乎不适合我的需求。
我正在寻找可以从命令行使用的免费可用的东西。我最终想批量处理我们的文件。我已经包含了 linux、python 和 java 标签,因为这些是我最舒服的环境,但我愿意屈服于正确的解决方案。在我出去重新发明轮子之前,我试图做一些研究。
冒着从 SX 获得考古学家徽章的风险,答案应包括对Pandoc http://pandoc.org。这并不依赖于开放式办公室。
pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)